DeepSeek-V4 H200 FP4 文档后端选择修正
此 PR 为纯文档修正,无需精读代码逻辑,但建议部署相关模型时参考基准数据以选择最佳后端。
SGLang is a high-performance serving framework for large language models and multimodal models.
DeepSeek-V4 H200 FP4 文档后端选择修正
此 PR 为纯文档修正,无需精读代码逻辑,但建议部署相关模型时参考基准数据以选择最佳后端。
修复Kimi-K2.5共享专家融合对非Quark检查点的误启用
值得快速合入,因为它修复了一个导致标准 Kimi-K2.5 完全无法使用的严重回归。设计决策(将 `quant_config.get_name() == "quark"` 作为门控条件)合理且注释详尽。建议在后续工作中考虑增加对新量化格式的通用支持,或将此门控抽象为可扩展的“fusion-capable quant config 允许列表”。
Max-Throughput 配方自动启用 MegaMoE W4A8
此 PR 设计合理,实现简洁,建议合并。可作为前端配置自动化的参考模式。
废弃 NPU 专用 MoE 前向路径和调度器,统一至 FusedMoE 流水线
值得精读,特别是 `forward_fuseep` 作为 free function 绕过调度器的模式。设计决策如将 `ascend_fuseep` 路由到 `StandardDispatcher` 占位、在 `quant_method` 中拦截 DeepEP 输出等,展示了如何在统一架构中嵌入硬件专用路径。对于需要扩展 SGLang MoE 后端的开发者,此 PR 是一个很好的模板。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-05-21 23:58
删除 LoRA MoE 中 GPU 同步瓶颈,提速 14%
该 PR 值得所有使用 LoRA+MoE 功能的工程师精读,尤其是关注 GPU 利用率优化的工程师。设计亮点在于:利用 Triton kernel 本身的早期退出机制替代昂贵的 host-device 同步,并通过 CPU 端预计算保留快速路径。决策清晰,性能收益显著,且无回归风险。
Wan DiT layerwise 卸载默认开启
该 PR 值得阅读 `server_args_auto_tune.py` 中的条件判断与注释,它展示了显式 vs 隐式策略的典型设计权衡。但需注意 review 中未采纳的建议,可能是一个潜在的边界错误,建议团队在后续 PR 中修正。测试用例的设计也有参考价值,尤其是利用 mock 覆盖各种模型配置。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-21 22:58
cherry-pick 工作流输出新 PR 链接
可快速合入。对于频繁使用 cherry-pick 工作流的团队,此改进能提高效率。
原始 PR · 作者 liuxianglong17 · 合并时间 2026-05-21 22:10
抑制 Transformers 兼容性警告日志
PR 改动简单,无需深入精读。但 review 中关于环境变量覆盖的讨论值得注意:对于测试脚本,应优先使用 `os.getenv("VAR", default)` 模式以保留开发者调试的可能性。
参与讨论