Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-29
功能 重要性 5.85 洞察度 3.00

为 DeepSeek-V4 新增 H200 (FP4) 部署选项

值得阅读以了解如何在前端组件中处理不兼容硬件选项的优雅降级。设计上使用 Set 和显示禁用原因对用户友好。如果团队正在编写类似部署 cookbook,可参考此模式。

#23974 [AMD] Fix Aiter RMSNorm layout handling

原始 PR · 作者 hubertlu-tw · 合并时间 2026-04-29 10:28

缺陷修复 重要性 6.02 洞察度 4.00

修复 Aiter RMSNorm 在 strided 高维输入下的内存访问越界

值得合入。PR 定位准确,修复方案最小且安全,对 AMD 用户有实际价值。建议阅读 `forward_aiter()` 的实现方式,可作为处理不同后端 kernel 约束的参考模式。

功能 重要性 6.63 洞察度 5.00

为 GptOssForCausalLM 添加 Intel XPU 后端并适配 MoE

本 PR 是典型的硬件后端扩展范例,建议关注其引入的 MoE 偏置和激活扩展点,确认与现有 Triton/Torch 路径对齐。决策上值得讨论的是:bias 的 fp32 处理与 swiglu 激活的条件分支设计。评审者可重点验证偏置存在时数值正确性和激活选择逻辑。

基础设施 重要性 5.77 洞察度 4.00

更新 XPU Docker 栈与 CI 配置以修复挂起

该 PR 是典型的基础设施维护,对于关注 XPU 后端和 CI 可靠性的团队成员值得精读。Dockerfile 中驱动安装步骤可作为 XPU 环境的参考。测试清理部分展示了如何消除冗余代码,但需注意显存清理的删除是否会影响测试隔离性。

#23619 [codex] Enable Qwen3-Next MoE all-reduce fusion

原始 PR · 作者 BBuf · 合并时间 2026-04-29 09:11

性能优化 重要性 7.60 洞察度 5.00

为 Qwen3-Next 启用 MoE all-reduce 融合

值得精读。此 PR 展示了如何利用已有基础设施(`LayerCommunicator`)快速为新的 MoE 模型启用性能优化,是高性能推理系统中“模式复用”的典型案例。代码改动集中,可读性强,review 中关于死代码的讨论也体现了设计权衡。

参与讨论