Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-09

#24260 Enable trtllm-gen BF16 MoE for MTP

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 18:14

功能 重要性 5.95 洞察度 4.00

启用 trtllm-gen BF16 MoE 用于 MTP 草稿层

该 PR 改动简洁但有效,值得所有使用 flashinfer_trtllm BF16 后端的团队了解。重点关注 `server_args.py` 中安全逻辑删除后的回归测试结果。

#24815 Revert "[NPU] fix profiler on npu"

原始 PR · 作者 sglang-npu-bot · 合并时间 2026-05-09 17:53

缺陷修复 重要性 5.81 洞察度 2.00

回滚 NPU 分析器修复 PR#24685

该 PR 为简单回滚,无需深入审查。建议关注后续是否有重新修复 NPU profiler 的 PR,以更 robust 的方式传入 experimental_config。

#24685 [NPU] fix profiler on npu

原始 PR · 作者 zhaozx-cn · 合并时间 2026-05-09 17:48

缺陷修复 重要性 6.27 洞察度 4.00

修复 NPU 上 torch profiler 算子形状信息缺失

本 PR 是 NPU 平台 profiling 功能的关键修复,建议合并。但需确认非 NPU 平台不会因 `experimental_config=None` 而报错,并考虑后续使用字典解包的更安全模式。

缺陷修复 重要性 4.85 洞察度 4.00

修复 fa_skip_kv_cache 在 MLA 下的潜在 bug

建议合并。变更简洁明了,修复了一个潜在的正确性问题,并附有清晰的注释。不需额外测试,因为该路径目前无实际使用场景。

#23590 Reland Cute-DSL FP4 dense GEMM

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 17:20

功能 重要性 7.22 洞察度 5.00

重新引入 Cute-DSL FP4 GEMM 后端,优化 Blackwell 性能

值得关注其自动选择策略和基准测试增强方式;作为 kernel 后端的标准集成范例可以借鉴。对于使用 Blackwell GPU 的部署建议开启此选项。

修复 GLM-5.1 专家卸载路径的三个阻塞问题

值得精读,特别是 Triton constexpr 取舍、offloader 在多 worker 下的状态隔离设计。可作为类似性能问题的参考。

重构 重要性 7.69 洞察度 5.00

将 accept_tokens 从 EagleDraftInput 移除,改为方法参数传递

值得精读,尤其是理解 speculative decode 数据流如何逐步解耦。PR 设计上分离 draft input 与 verify output 的职责,是很好的架构演进方向。

参与讨论