Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-21

#25896 [AMD] Upgrade AITER

原始 PR · 作者 bingxche · 合并时间 2026-05-21 17:10

基础设施 重要性 3.67 洞察度 4.00

升级 AMD ROCm Dockerfile 中 AITER 依赖版本

该 PR 属于常规依赖升级,技术含量较低,除非关注 ROCm 构建流程,否则无需精读。但值得注意其作为前置 PR 的关联性,以及 review 中关于代码重复的建议,未来类似升级应考虑使用全局 ARG 降低维护成本。

性能优化 重要性 8.40 洞察度 5.00

路由 seq_lens 通过 FutureMap,消除 verify_done 等待

值得精读以理解 speculative decoding v2 的同步设计演变。该 PR 展示了如何用 FutureMap 的发布/ stash 模式替代显式跨流事件,是一种值得借鉴的解耦调度流与前向流数据传递的方法。建议关注 future 缓冲区生命周期管理。

重构 重要性 9.18 洞察度 5.00

DSv4 JIT kernel 模块化重构,单文件拆分为多模块

- **必读文件**:`gemm.py` 和 `compress_old.py` 存在直接 Bug 风险,务必检查合并后代码是否已修复评论指出的问题。 - **值得关注**:TopK kernel 的统一方式(通过模板参数合并)是良好的重构手法;模块化拆分策略可借鉴到其他模型。 - **建议行动**:为 `gemm.py` 和 `compress_old.py` 补充单元测试,并添加 CI 回归测试覆盖 DSV4 模型的基本推理。

#24376 Fix nixl mla key and backup skipping

原始 PR · 作者 hxieustc · 合并时间 2026-05-21 15:48

缺陷修复 重要性 6.32 洞察度 5.00

修复 MLA 模型在 NIXL 后端上的 key 分母计算与 backup 跳过逻辑

建议关注 HiCache 存储或多模态模型加速的工程师深入阅读。该 PR 清晰地展示了分布式推理中 MLA 模型与 MHA 模型存储策略的差异(交错 KV vs 独立 KV),以及如何通过 backup rank 跳过避免重复写入。设计决策(如 denominator 选择、rank0 写入策略)值得借鉴。新增的单元测试模式也可作为同类测试的参考。

功能 重要性 6.56 洞察度 4.00

NPU 支持 DeepSeek-OCR 系列模型

值得快速合入,解决了 NPU 平台特定模型的功能阻塞。设计上采用条件导入而非运行时派发,是合理的权衡。后续建议在 CI 中增加 NPU DeepSeek-OCR 的回归测试。

缺陷修复 重要性 5.66 洞察度 3.00

修复 NPU 上 Qwen3.5/3.6 分块预填充准确性问题

建议合并。修复明确、改动量小,且附有精度对比证据。但缺乏对应的单元测试,未来建议补充 NPU 上的分块预填充测试。

其他 重要性 3.38 洞察度 4.00

回退 cutlass-dsl 版本至 4.5.0

该 PR 是紧急回退,用于解阻塞 CI 和用户部署,值得快速合并。但需要立即跟进根本修复(如 PR body 中提出的 `fix_cutlass_dsl_libs()` 函数方案),在 `main()` 中根据 GPU 家族执行不同的 libs 清理逻辑。建议精读 PR body 中的问题分析和后续修复方向。

参与讨论