修复非 NVLink 场景下 CUDA graph 捕获崩溃
这是一个高信号、低风险的 bugfix,建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 `sglang` 的定制通信层开发者,`capture()` 的 guard 模式值得参考,以确保 future 的类似 `disabled` 分支保持一致。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复非 NVLink 场景下 CUDA graph 捕获崩溃
这是一个高信号、低风险的 bugfix,建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 `sglang` 的定制通信层开发者,`capture()` 的 guard 模式值得参考,以确保 future 的类似 `disabled` 分支保持一致。
修复 SUM_LEN 模式下 reduce_scatterv 合约错误
建议精读该 PR 以理解 DP reduce_scatterv 生产合约的关键设计思路。这是一个典型的生产合约 Bug,修复逻辑清晰但影响重大,值得作为分布式推理中通信合约设计的案例研究。
原始 PR · 作者 egvenediktov · 合并时间 2026-05-11 04:49
NPU 通信量化特性文档补录
可快速合入,无需精读。若需要了解 NPU 通信量化特性,可参考原始 PR #20520 的实现细节。
添加 routed_experts_start_len 参数,支持路由数据绝对切片控制
值得精读。该 PR 展示了如何通过一个简单的小参数消除多轮推理场景中的线性瓶颈,设计思路清晰:在数据采集点引入切片控制,从源头减少不必要的 gather 和序列化。对于其他类似的数据收集(如 logprobs、hidden states)也可参考此模式。
原始 PR · 作者 AgainstEntropy · 合并时间 2026-05-11 00:24
添加 MiniCPM-V 4.6 多模态模型支持
该 PR 结构清晰,目标准确,适合作为多模态模型集成的参考范例。建议仔细审阅视觉 Transformer 实现中的 MiniCPMV_ViTWindowAttentionMerger 设计(包含 CPU 端索引构建以避免 PyTorch 2.10+ 设备检查),以及配置类的 _build_text_config 回退逻辑。由于缺少自动化测试,合并后应尽快补充单元测试和集成测试。
原始 PR · 作者 RunningLeon · 合并时间 2026-05-10 22:17
支持 Intern-S2-Preview 多模态模型
该 PR 是 SGLang 添加新模型的典型范例,结构清晰(继承+注册),推荐开发者阅读以了解模型集成流程。可重点关注配置文件、路由注册和多模态处理器的修改模式。
统一 DSV4 与 SWA 状态传输,删除冗余逻辑
值得精读:展示了如何通过消除冗余分支简化代码并修复隐式 bug。关注继承关系依赖和通用路径的兼容性保证。
优化 DSV4 MHC pipeline:融合 kernel、折叠 reduction、利用 DeepGemm
该 PR 展示了高性能 MLA 场景下的 kernel 融合策略,值得研究其折叠 reduction 和使用 `triton.next_power_of_2` 等技巧,但合并前应确保有端到端 benchmark 验证;对于 DSV4 用户,加速效果明显,建议优先合并。
参与讨论