Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 13:37 同步状态:空闲 下次计划:2026-06-07 14:37

PR 列表

更多筛选
2026-04-27
缺陷修复 重要性 6.10 洞察度 5.00

修复 EAGLE overlap 中 draft 与 verify 的 GPU 同步问题

值得合并。该修复解决了 AMD 平台 spec v2 数据竞态 bug,且方案在 NVIDIA 平台也验证有效。设计上使用 CUDA event 替代 wait_stream 实现更精确同步,也是正确方向。建议后续考虑 gemini-code-assist 的抽取建议提升代码质量。

缺陷修复 重要性 6.22 洞察度 5.00

修复 Grok-2 因 vision_config 误判多模态导致启动失败

该 PR 是一个高价值的小范围精确修复,PR body 分析清晰、根因定位准确、修改范围可控。适合作为修改配置检测逻辑的参考案例,其风险分析方式也值得学习。无需精读整条 pipeline。

重构 重要性 7.47 洞察度 5.00

统一 MoE 专家后 all-reduce 跳过条件到集中式 helper

值得精读:展示了通过集中化消除跨文件重复逻辑的优秀实践,特别是为 EP/TP 路径通过参数区分的设计可以复用。对于维护 MoE 并行逻辑的开发者,此 PR 是必读的基线变更。

#23785 chore: update CI test est_time values

原始 PR · 作者 sglang-bot · 合并时间 2026-04-27 11:17

基础设施 重要性 3.94 洞察度 2.00

更新 CI 测试预估时长以优化并行调度

该 PR 属于纯运维类更新,无设计决策需要关注。但对 CI 调度策略感兴趣的读者可以留意其测量和更新流程,以及 `est_time=0` 的遗留问题。建议后续补充校验逻辑,避免零值。

#20918 [NPU] Support MTP for Qwen3.5

原始 PR · 作者 iridiumine · 合并时间 2026-04-27 10:44

功能 重要性 9.18 洞察度 6.00

Ascend NPU 上为 Qwen3.5 添加 MTP 推测解码支持

值得精读,特别是 NPU 注意力后端的架构设计以及如何复用 GPU 端的抽象接口。建议关注作者在 `attention_registry.py` 中的条件路由模式,以及使用 `ExitStack` 管理线程安全环境变量的做法。

参与讨论