修复NIXL异构TP下非MLA模型的KV传输死锁和头分布错误。
该PR值得精读,尤其是对解耦服务和异构TP架构感兴趣的工程师。关注点:1. send_kvcache_slice中头分布计算的改进,如何从每rank头数切换到总头数以处理GQA。2. RDMA通知键从pp_rank改为engine_rank的设计权衡,避免PP=1时的冲突。3. 与Mooncake实现对齐的决策,体现了代码复用和一致性。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复NIXL异构TP下非MLA模型的KV传输死锁和头分布错误。
该PR值得精读,尤其是对解耦服务和异构TP架构感兴趣的工程师。关注点:1. send_kvcache_slice中头分布计算的改进,如何从每rank头数切换到总头数以处理GQA。2. RDMA通知键从pp_rank改为engine_rank的设计权衡,避免PP=1时的冲突。3. 与Mooncake实现对齐的决策,体现了代码复用和一致性。
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-04-07 14:46
为 AMD MI30x/MI35x GPU 添加 Qwen3.5-397B FP8 模型的夜间性能基准测试。
建议工程团队关注 CI 工作流的变更,确保性能测试步骤配置正确;性能测试文件中的代码重复问题值得后续重构以提升可维护性;对于学习测试框架设计,可参考 NightlyBenchmarkRunner 的使用模式。
修复 Qwen2.5-Math-RM-72B 模型因缺少 pp_group 属性导致的启动失败问题。
该 PR 变更简单,无需精读。对于维护 Qwen2 模型代码的工程师,可以关注这个防御性检查的模式,但设计决策本身很直接。建议在类似模型加载逻辑中考虑添加属性存在性检查以避免类似问题。
原始 PR · 作者 adityavaid · 合并时间 2026-04-07 13:27
为 SGLang 添加 Qwen3-ASR 模型支持,扩展其自动语音识别能力。
建议技术管理者和工程师精读此 PR,重点关注以下设计决策:配置嵌套结构的处理、模型权重复用策略、以及多模态处理器集成模式。同时,注意 review 中提出的代码重复和插件机制问题,可作为后续重构的参考点。
原始 PR · 作者 changminbark · 合并时间 2026-04-07 11:36
为 Apple Silicon/MLX 硬件后端添加 mlx 和 mlx-lm 依赖项。
该 PR 变更简单,适合快速浏览以了解 Apple Silicon 后端的依赖管理。值得关注的设计决策是最终选择不固定版本,这体现了对依赖灵活性的权衡;但可注意未添加平台环境标记可能带来的潜在问题。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-07 11:24
添加 Gemma 4 模型支持,覆盖文本、视觉、音频等多模态功能与推理工具调用。
建议技术管理者和工程师精读此 PR,关注设计决策如混合 SWA 处理、多模态集成策略和性能优化技巧。特别推荐查看 gemma4_mm.py 中的多模态流程、triton_backend.py 中的混合缓冲区管理,以及 fused kernels 的优化思路,这些对类似模型集成有借鉴价值。
为 Ngram 推测解码添加外部 SAM 接受长度基准测试,验证性能提升。
对于关注 Ngram 推测解码性能的工程师,建议精读此 PR 以了解外部 SAM 的基准测试设计。值得关注的点包括测试分阶段设计、HTTP API 的使用以及 review 中提到的健壮性问题,这些有助于提升测试代码的质量。
原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-07 10:04
修复 Grok 模型加载时因缺少预分片权重文件导致的 IndexError。
该 PR 变更简单直接,适合快速浏览以理解模型加载中的回退机制。对于深入理解 Grok 模型权重加载流程或预分片权重设计有参考价值。建议关注 _prepare_presharded_weights 函数的整体逻辑,以及回退条件如何与权重文件命名约定协同工作。
参与讨论