Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-15

#24725 ci: tag-gated nightly migration — foundation + 40 whole-file moves

原始 PR · 作者 alisonshao · 合并时间 2026-05-15 07:11

基础设施重要性 8.39 洞察度 6.00

标签驱动 CI 夜间迁移，减少 per-commit 负担约 38.9%

本 PR 值得详细阅读：其展示了大型 CI 重构的策略——从基础设施抽象、文件级迁移到工作流重组，并包含了设计权衡（如放弃 tag-gated 改用 extra stages）。对于需要优化 CI 效能的团队具有较强的参考价值。关注点应放在标签映射的准确性以及 extra 工作流触发门槛对开发者体验的影响。

ciinfrarefactor

#25317 Revert "[MoE] Decouple Mega MoE from DeepEP backend"

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-15 07:00

缺陷修复重要性 6.83 洞察度 4.00

回退 Mega MoE 解耦 DeepEP 后端变更

部署 DeepSeek V4 MoE 的用户应关注此次接口变更，及时更新启动脚本。建议团队后续在文档中明确环境变量与 `--moe-a2a-backend` 的优先级关系，并考虑在未来版本中设计更清晰、不需要回退的解耦方案。

deepseekmoerefactor

#25204 Fix frozen kv MTP crash when bonus_tokens is None

原始 PR · 作者 pyc96 · 合并时间 2026-05-15 06:33

缺陷修复重要性 5.05 洞察度 3.00

修复 Frozen KV MTP 在 bonus_tokens 为 None 时的崩溃

该 PR 值得快速合并，是一次精确的 bugfix，一行代码修复了一个影响推测解码可用性的崩溃。建议在代码审查时确认 select_last_verified_seed 的其他调用点不受影响。

bugfixspeculative-decodingdeepseek

#25310 revert flashinfer 0.6.11 bumps

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-15 06:28

缺陷修复重要性 6.74 洞察度 5.00

回退 FlashInfer 0.6.11 至 0.6.8，修复 MoE 崩溃

该 PR 是快速的熔断操作，值得所有使用 FlashInfer 且涉及 MoE 模型的团队关注。回退逻辑清晰，但应跟踪 PR#24281 和 FlashInfer 上游的修复进展。建议在恢复升级前增加明确的 CI 测试（包含 4xH100 的 mxfp4 MoE 流程）。

bugfixdependenciesmoe

#25181 Enable SGLANG_OPT_FP8_WO_A_GEMM by default

原始 PR · 作者 yhyang201 · 合并时间 2026-05-15 02:09

性能优化重要性 6.15 洞察度 4.00

默认启用 FP8 W_o GEMM 优化，针对 Blackwell 加速

值得阅读其降级逻辑设计，作为配置默认值切换的参考模式。该 PR 展示了如何安全地为一个架构启用优化，同时保护其他架构。

performancedeepseekfp8

#24884 [MoE] Decouple Mega MoE from DeepEP backend

原始 PR · 作者 yhyang201 · 合并时间 2026-05-15 02:01

重构重要性 6.83 洞察度 6.00

解耦 Mega MoE 与 DeepEP 后端，自动配置 EP 大小

值得精读。该 PR 展示了一种将特定后端解耦为独立选项的模式：通过枚举统一标识后端、在配置入口自动选择、将内部条件判断从环境变量迁移至后端枚举。对于理解 SGLang MoE 后端架构有参考价值。

moedeepseekrefactor

#25221 [MLX] bench_one_batch: thread --quantization through to MlxModelRunner

原始 PR · 作者 damahua · 合并时间 2026-05-15 00:56

缺陷修复重要性 4.73 洞察度 3.00

修复 MLX bench 量化参数遗漏传递

建议合入。这是一个清晰的缺失参数传递修复，影响范围小且已由 reviewer 批准。

bugfixmlaperformance

#25191 [Apple Silicon] [MLX] Auto-detect MLX-format quantization_config dict

原始 PR · 作者 jlee5814 · 合并时间 2026-05-15 00:55

缺陷修复重要性 7.14 洞察度 5.00

MLX 预量化模型配置自动识别

该 PR 修复了实际用户报障且设计上恪守了后端功能隔离原则（所有逻辑位于 `mlx.py`），推荐合并。值得关注的设计决策是：选择复用已有的 `override_quantization_method` 扩展点而非在 `model_config.py` 中增加条件判断，保持了架构整洁。

quantbugfixmacos

第 126 / 357 页 · 共 2850 条

上一页 1 … 124 125 126 127 128 … 357 下一页