为 DeepSeek-V4 新增 H200 (FP4) 部署选项
值得阅读以了解如何在前端组件中处理不兼容硬件选项的优雅降级。设计上使用 Set 和显示禁用原因对用户友好。如果团队正在编写类似部署 cookbook,可参考此模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 DeepSeek-V4 新增 H200 (FP4) 部署选项
值得阅读以了解如何在前端组件中处理不兼容硬件选项的优雅降级。设计上使用 Set 和显示禁用原因对用户友好。如果团队正在编写类似部署 cookbook,可参考此模式。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-29 10:32
清理 CI 中淘汰的 mooncake 变体残留
值得合并,解决了一个隐蔽的 CI 环境污染问题。注意后续若有新 mooncake 变体需要更新此逻辑。
原始 PR · 作者 hubertlu-tw · 合并时间 2026-04-29 10:28
修复 Aiter RMSNorm 在 strided 高维输入下的内存访问越界
值得合入。PR 定位准确,修复方案最小且安全,对 AMD 用户有实际价值。建议阅读 `forward_aiter()` 的实现方式,可作为处理不同后端 kernel 约束的参考模式。
为 GptOssForCausalLM 添加 Intel XPU 后端并适配 MoE
本 PR 是典型的硬件后端扩展范例,建议关注其引入的 MoE 偏置和激活扩展点,确认与现有 Triton/Torch 路径对齐。决策上值得讨论的是:bias 的 fp32 处理与 swiglu 激活的条件分支设计。评审者可重点验证偏置存在时数值正确性和激活选择逻辑。
原始 PR · 作者 iridiumine · 合并时间 2026-04-29 10:19
修复 DeepEP 低延迟分发和 Qwen3.5 NPU triton kernel 崩溃
建议合并,修复明确且经 reviewer 确认。建议关注 #22822 对 dispatch 输出类型的自动化改造,以及后续统一环境变量后本 PR 的兼容性。
更新 XPU Docker 栈与 CI 配置以修复挂起
该 PR 是典型的基础设施维护,对于关注 XPU 后端和 CI 可靠性的团队成员值得精读。Dockerfile 中驱动安装步骤可作为 XPU 环境的参考。测试清理部分展示了如何消除冗余代码,但需注意显存清理的删除是否会影响测试隔离性。
为 Qwen3-Next 启用 MoE all-reduce 融合
值得精读。此 PR 展示了如何利用已有基础设施(`LayerCommunicator`)快速为新的 MoE 模型启用性能优化,是高性能推理系统中“模式复用”的典型案例。代码改动集中,可读性强,review 中关于死代码的讨论也体现了设计权衡。
原始 PR · 作者 merrymercy · 合并时间 2026-04-29 08:23
支持 --model 作为 --model-path 的 CLI 别名
该 PR 改动简单直接,无需精读。可合并用于提升 CLI 用户体验。
参与讨论