启用 trtllm-gen BF16 MoE 用于 MTP 草稿层
该 PR 改动简洁但有效,值得所有使用 flashinfer_trtllm BF16 后端的团队了解。重点关注 `server_args.py` 中安全逻辑删除后的回归测试结果。
SGLang is a high-performance serving framework for large language models and multimodal models.
启用 trtllm-gen BF16 MoE 用于 MTP 草稿层
该 PR 改动简洁但有效,值得所有使用 flashinfer_trtllm BF16 后端的团队了解。重点关注 `server_args.py` 中安全逻辑删除后的回归测试结果。
原始 PR · 作者 sglang-npu-bot · 合并时间 2026-05-09 17:53
回滚 NPU 分析器修复 PR#24685
该 PR 为简单回滚,无需深入审查。建议关注后续是否有重新修复 NPU profiler 的 PR,以更 robust 的方式传入 experimental_config。
修复 NPU 上 torch profiler 算子形状信息缺失
本 PR 是 NPU 平台 profiling 功能的关键修复,建议合并。但需确认非 NPU 平台不会因 `experimental_config=None` 而报错,并考虑后续使用字典解包的更安全模式。
原始 PR · 作者 jasperjiaguo · 合并时间 2026-05-09 17:25
修复 fa_skip_kv_cache 在 MLA 下的潜在 bug
建议合并。变更简洁明了,修复了一个潜在的正确性问题,并附有清晰的注释。不需额外测试,因为该路径目前无实际使用场景。
重新引入 Cute-DSL FP4 GEMM 后端,优化 Blackwell 性能
值得关注其自动选择策略和基准测试增强方式;作为 kernel 后端的标准集成范例可以借鉴。对于使用 Blackwell GPU 的部署建议开启此选项。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-09 15:43
修复 GLM-5.1 专家卸载路径的三个阻塞问题
值得精读,特别是 Triton constexpr 取舍、offloader 在多 worker 下的状态隔离设计。可作为类似性能问题的参考。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-09 15:33
降低 HiCache 测试预估时间以平衡 CI 分区
可快速合入,无需深入精读。但值得关注 `run_suite.py` 分区器如何利用 `est_time`,可为其他测试的类似优化提供参考。
将 accept_tokens 从 EagleDraftInput 移除,改为方法参数传递
值得精读,尤其是理解 speculative decode 数据流如何逐步解耦。PR 设计上分离 draft input 与 verify output 的职责,是很好的架构演进方向。
参与讨论