Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-22
缺陷修复 重要性 6.39 洞察度 5.00

修复Kimi-K2.5共享专家融合对非Quark检查点的误启用

值得快速合入,因为它修复了一个导致标准 Kimi-K2.5 完全无法使用的严重回归。设计决策(将 `quant_config.get_name() == "quark"` 作为门控条件)合理且注释详尽。建议在后续工作中考虑增加对新量化格式的通用支持,或将此门控抽象为可扩展的“fusion-capable quant config 允许列表”。

重构 重要性 9.18 洞察度 6.00

废弃 NPU 专用 MoE 前向路径和调度器,统一至 FusedMoE 流水线

值得精读,特别是 `forward_fuseep` 作为 free function 绕过调度器的模式。设计决策如将 `ascend_fuseep` 路由到 `StandardDispatcher` 占位、在 `quant_method` 中拦截 DeepEP 输出等,展示了如何在统一架构中嵌入硬件专用路径。对于需要扩展 SGLang MoE 后端的开发者,此 PR 是一个很好的模板。

2026-05-21
性能优化 重要性 6.18 洞察度 6.00

删除 LoRA MoE 中 GPU 同步瓶颈,提速 14%

该 PR 值得所有使用 LoRA+MoE 功能的工程师精读,尤其是关注 GPU 利用率优化的工程师。设计亮点在于:利用 Triton kernel 本身的早期退出机制替代昂贵的 host-device 同步,并通过 CPU 端预计算保留快速路径。决策清晰,性能收益显著,且无回归风险。

#25930 [diffusion] chore: enable layerwise for wan

原始 PR · 作者 mickqian · 合并时间 2026-05-21 23:48

功能 重要性 8.56 洞察度 6.00

Wan DiT layerwise 卸载默认开启

该 PR 值得阅读 `server_args_auto_tune.py` 中的条件判断与注释,它展示了显式 vs 隐式策略的典型设计权衡。但需注意 review 中未采纳的建议,可能是一个潜在的边界错误,建议团队在后续 PR 中修正。测试用例的设计也有参考价值,尤其是利用 mock 覆盖各种模型配置。

参与讨论