修复 Waterfill 与动态 EPLB 在 fused shared experts 下的兼容性
此 PR 是 DeepEP+EPLB 兼容路径的关键修复,维护者应快速合入。代码设计清晰(通过分离 recorder ID 避免统计污染),可作为处理类似混合专家 ID 空间的参考实现。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 Waterfill 与动态 EPLB 在 fused shared experts 下的兼容性
此 PR 是 DeepEP+EPLB 兼容路径的关键修复,维护者应快速合入。代码设计清晰(通过分离 recorder ID 避免统计污染),可作为处理类似混合专家 ID 空间的参考实现。
原始 PR · 作者 maodoudou168 · 合并时间 2026-06-06 06:43
为自适应推测解码增加 batch size 感知的独立 EMA 与步长切换
该 PR 扩展了自适应推测解码的核心能力,设计上考虑了向后兼容和性能优化(CUDA 图裁剪)。代码质量较高,测试覆盖充分。建议所有涉及推测解码的开发者精读,尤其是 `AdaptiveStepSlot` 和 `AdaptiveController` 的设计,以及 CUDA 图裁剪的实现思路。
实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x
该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。
修复 Nemotron NVFP4 混合精度检查点日志错误
建议合并。修复简单明了,防御性编码思路正确,且经过测试验证。值得关注的是 TODO 注释暗示了未来应重构在线量化日志到单独模块,但非当前 PR 范围。
支持 DSV32 中 NextN = 2/4 的 DG 原生路径
值得精读。该 PR 展示了如何利用 DeepGEMM 原生多 token 接口优化计算密集型 kernel,尤其是 `_build_paged_mqa_schedule_2d_ctx_lens` 的布局选择逻辑和 `use_dg_native` 的 fallback 设计,对类似 speculative decoding 加速场景有参考价值。
修复 EAGLE 推测解码 topk>1 时 CUDA Graph 内存越界
此 PR 值得合并,修复了明确的严重 bug。对于从事推测解码或 CUDA Graph 相关开发的工程师,建议精读 `common_template` 中的断言实现,它提供了一种低成本、高覆盖的防御性编程模式。
在 cookbook 首页添加腾讯混元与 Poolside 卡片
建议合并。改动清晰、已验证链接可用,仅需确认 Logo 版权无争议。无需精读。
为 Gemma 4 部署交互文档新增 QAT 检查点支持
建议合入。这是一个低风险、高收益的文档更新,通过交互式组件降低了用户使用 QAT 检查点的门槛,符合 SGLang 持续丰富模型部署指南的方向。
参与讨论