Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-06

#27150 Support Waterfill with dynamic EPLB

原始 PR · 作者 xutizhou · 合并时间 2026-06-06 07:01

缺陷修复 重要性 7.57 洞察度 5.00

修复 Waterfill 与动态 EPLB 在 fused shared experts 下的兼容性

此 PR 是 DeepEP+EPLB 兼容路径的关键修复,维护者应快速合入。代码设计清晰(通过分离 recorder ID 避免统计污染),可作为处理类似混合专家 ID 空间的参考实现。

功能 重要性 9.06 洞察度 7.00

为自适应推测解码增加 batch size 感知的独立 EMA 与步长切换

该 PR 扩展了自适应推测解码的核心能力,设计上考虑了向后兼容和性能优化(CUDA 图裁剪)。代码质量较高,测试覆盖充分。建议所有涉及推测解码的开发者精读,尤其是 `AdaptiveStepSlot` 和 `AdaptiveController` 的设计,以及 CUDA 图裁剪的实现思路。

功能 重要性 9.00 洞察度 6.00

实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x

该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。

缺陷修复 重要性 5.84 洞察度 3.00

修复 Nemotron NVFP4 混合精度检查点日志错误

建议合并。修复简单明了,防御性编码思路正确,且经过测试验证。值得关注的是 TODO 注释暗示了未来应重构在线量化日志到单独模块,但非当前 PR 范围。

#27166 Reland "Support NextN = 2/4 in DSV32"

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 04:43

功能 重要性 7.27 洞察度 5.00

支持 DSV32 中 NextN = 2/4 的 DG 原生路径

值得精读。该 PR 展示了如何利用 DeepGEMM 原生多 token 接口优化计算密集型 kernel,尤其是 `_build_paged_mqa_schedule_2d_ctx_lens` 的布局选择逻辑和 `use_dg_native` 的 fallback 设计,对类似 speculative decoding 加速场景有参考价值。

缺陷修复 重要性 6.18 洞察度 6.00

修复 EAGLE 推测解码 topk>1 时 CUDA Graph 内存越界

此 PR 值得合并,修复了明确的严重 bug。对于从事推测解码或 CUDA Graph 相关开发的工程师,建议精读 `common_template` 中的断言实现,它提供了一种低成本、高覆盖的防御性编程模式。

#27396 Cookbook for QAT

原始 PR · 作者 kpham-sgl · 合并时间 2026-06-06 02:18

文档 重要性 4.08 洞察度 2.00

为 Gemma 4 部署交互文档新增 QAT 检查点支持

建议合入。这是一个低风险、高收益的文档更新,通过交互式组件降低了用户使用 QAT 检查点的门槛,符合 SGLang 持续丰富模型部署指南的方向。

参与讨论