#20522 [Mamba] eliminate D2H if tracking mamba states
原始 PR · 作者 Henson-Zh-Ali · 合并时间 2026-04-08 00:17
优化Mamba状态跟踪,消除D2H操作,提升TTFT性能6%。
建议技术管理者和工程师精读此PR,学习如何通过预计算索引优化D2H操作;关注`init_forward_metadata`中的设计决策,以及review中关于性能权衡的讨论。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Henson-Zh-Ali · 合并时间 2026-04-08 00:17
优化Mamba状态跟踪,消除D2H操作,提升TTFT性能6%。
建议技术管理者和工程师精读此PR,学习如何通过预计算索引优化D2H操作;关注`init_forward_metadata`中的设计决策,以及review中关于性能权衡的讨论。
为NIXL解耦后端添加Mamba状态切片传输支持,使混合Mamba模型在异构TP下正常运行。
该PR值得技术管理者关注,因为它扩展了NIXL后端的异构TP支持,是解耦推理演进的重要步骤。工程师可精读`_send_mamba_state_slice()`函数以学习状态切片和RDMA传输的设计模式,但需注意参数传递的可读性改进空间。
修复扩散模型CI一致性检查,移除不稳定测试用例并调整阈值配置。
建议精读以理解扩散模型测试的稳定性处理策略,关注阈值管理和测试用例选择的设计决策,以及CI环境优化的实践。
将Ring-2.5-1T模型测试从常规CI移至夜间测试套件,并添加软看门狗超时参数。
此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。
修复多模态模型PCG重放时input_embeds缓冲区清零逻辑错误。
该PR值得快速浏览,了解PCG缓冲区管理的细节。关注点:多模态模型缓冲区形状处理中的常见错误模式。建议后续补充单元测试以巩固修复。
原始 PR · 作者 charlotte12l · 合并时间 2026-04-07 17:47
添加外部线性注意力模型注册 API,简化新模型集成。
建议技术管理者精读此 PR,以了解注册 API 的设计决策,特别是如何保持向后兼容性和集成点设计。对于工程师,值得关注注册表模式和单元测试实现。
恢复MoE层topk后处理的torch.compile融合,修复性能回归。
该PR值得关注,尤其是对性能敏感的开发者和MoE模块维护者。虽然变更简单,但揭示了在重构时保持编译优化的重要性,以及review中性能意识的价值。建议结合PR #16945一起阅读,理解完整上下文。
新增HiSparse分层稀疏注意力功能的使用文档和配置指南。
建议文档维护者和使用HiSparse功能的工程师阅读此PR,以了解功能细节和配置方法。对于代码工程师,此PR无需精读,但可以作为文档示例参考或了解新功能背景。
参与讨论