修复多模态模型PCG重放时input_embeds缓冲区清零逻辑错误。
该PR值得快速浏览,了解PCG缓冲区管理的细节。关注点:多模态模型缓冲区形状处理中的常见错误模式。建议后续补充单元测试以巩固修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复多模态模型PCG重放时input_embeds缓冲区清零逻辑错误。
该PR值得快速浏览,了解PCG缓冲区管理的细节。关注点:多模态模型缓冲区形状处理中的常见错误模式。建议后续补充单元测试以巩固修复。
原始 PR · 作者 charlotte12l · 合并时间 2026-04-07 17:47
添加外部线性注意力模型注册 API,简化新模型集成。
建议技术管理者精读此 PR,以了解注册 API 的设计决策,特别是如何保持向后兼容性和集成点设计。对于工程师,值得关注注册表模式和单元测试实现。
恢复MoE层topk后处理的torch.compile融合,修复性能回归。
该PR值得关注,尤其是对性能敏感的开发者和MoE模块维护者。虽然变更简单,但揭示了在重构时保持编译优化的重要性,以及review中性能意识的价值。建议结合PR #16945一起阅读,理解完整上下文。
新增HiSparse分层稀疏注意力功能的使用文档和配置指南。
建议文档维护者和使用HiSparse功能的工程师阅读此PR,以了解功能细节和配置方法。对于代码工程师,此PR无需精读,但可以作为文档示例参考或了解新功能背景。
修复NIXL异构TP下非MLA模型的KV传输死锁和头分布错误。
该PR值得精读,尤其是对解耦服务和异构TP架构感兴趣的工程师。关注点:1. send_kvcache_slice中头分布计算的改进,如何从每rank头数切换到总头数以处理GQA。2. RDMA通知键从pp_rank改为engine_rank的设计权衡,避免PP=1时的冲突。3. 与Mooncake实现对齐的决策,体现了代码复用和一致性。
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-04-07 14:46
为 AMD MI30x/MI35x GPU 添加 Qwen3.5-397B FP8 模型的夜间性能基准测试。
建议工程团队关注 CI 工作流的变更,确保性能测试步骤配置正确;性能测试文件中的代码重复问题值得后续重构以提升可维护性;对于学习测试框架设计,可参考 NightlyBenchmarkRunner 的使用模式。
修复 Qwen2.5-Math-RM-72B 模型因缺少 pp_group 属性导致的启动失败问题。
该 PR 变更简单,无需精读。对于维护 Qwen2 模型代码的工程师,可以关注这个防御性检查的模式,但设计决策本身很直接。建议在类似模型加载逻辑中考虑添加属性存在性检查以避免类似问题。
原始 PR · 作者 adityavaid · 合并时间 2026-04-07 13:27
为 SGLang 添加 Qwen3-ASR 模型支持,扩展其自动语音识别能力。
建议技术管理者和工程师精读此 PR,重点关注以下设计决策:配置嵌套结构的处理、模型权重复用策略、以及多模态处理器集成模式。同时,注意 review 中提出的代码重复和插件机制问题,可作为后续重构的参考点。
参与讨论