Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-15
基础设施 重要性 8.39 洞察度 6.00

标签驱动 CI 夜间迁移,减少 per-commit 负担约 38.9%

本 PR 值得详细阅读:其展示了大型 CI 重构的策略——从基础设施抽象、文件级迁移到工作流重组,并包含了设计权衡(如放弃 tag-gated 改用 extra stages)。对于需要优化 CI 效能的团队具有较强的参考价值。关注点应放在标签映射的准确性以及 extra 工作流触发门槛对开发者体验的影响。

缺陷修复 重要性 6.83 洞察度 4.00

回退 Mega MoE 解耦 DeepEP 后端变更

部署 DeepSeek V4 MoE 的用户应关注此次接口变更,及时更新启动脚本。建议团队后续在文档中明确环境变量与 `--moe-a2a-backend` 的优先级关系,并考虑在未来版本中设计更清晰、不需要回退的解耦方案。

#25204 Fix frozen kv MTP crash when bonus_tokens is None

原始 PR · 作者 pyc96 · 合并时间 2026-05-15 06:33

缺陷修复 重要性 5.05 洞察度 3.00

修复 Frozen KV MTP 在 bonus_tokens 为 None 时的崩溃

该 PR 值得快速合并,是一次精确的 bugfix,一行代码修复了一个影响推测解码可用性的崩溃。建议在代码审查时确认 select_last_verified_seed 的其他调用点不受影响。

#25310 revert flashinfer 0.6.11 bumps

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-15 06:28

缺陷修复 重要性 6.74 洞察度 5.00

回退 FlashInfer 0.6.11 至 0.6.8,修复 MoE 崩溃

该 PR 是快速的熔断操作,值得所有使用 FlashInfer 且涉及 MoE 模型的团队关注。回退逻辑清晰,但应跟踪 PR#24281 和 FlashInfer 上游的修复进展。建议在恢复升级前增加明确的 CI 测试(包含 4xH100 的 mxfp4 MoE 流程)。

#25181 Enable SGLANG_OPT_FP8_WO_A_GEMM by default

原始 PR · 作者 yhyang201 · 合并时间 2026-05-15 02:09

性能优化 重要性 6.15 洞察度 4.00

默认启用 FP8 W_o GEMM 优化,针对 Blackwell 加速

值得阅读其降级逻辑设计,作为配置默认值切换的参考模式。该 PR 展示了如何安全地为一个架构启用优化,同时保护其他架构。

#24884 [MoE] Decouple Mega MoE from DeepEP backend

原始 PR · 作者 yhyang201 · 合并时间 2026-05-15 02:01

重构 重要性 6.83 洞察度 6.00

解耦 Mega MoE 与 DeepEP 后端,自动配置 EP 大小

值得精读。该 PR 展示了一种将特定后端解耦为独立选项的模式:通过枚举统一标识后端、在配置入口自动选择、将内部条件判断从环境变量迁移至后端枚举。对于理解 SGLang MoE 后端架构有参考价值。

缺陷修复 重要性 7.14 洞察度 5.00

MLX 预量化模型配置自动识别

该 PR 修复了实际用户报障且设计上恪守了后端功能隔离原则(所有逻辑位于 `mlx.py`),推荐合并。值得关注的设计决策是:选择复用已有的 `override_quantization_method` 扩展点而非在 `model_config.py` 中增加条件判断,保持了架构整洁。

参与讨论