NIXL 后端新增 staging buffer 支持异构 TP 批量 KV 传输
此 PR 重构了 NIXL 的 KV 传输路径,引入 staging buffer 后性能提升显著。代码抽象值得学习,尤其是 `register_fn` 回调模式。建议 NIXL 用户升级并启用 staging buffer。mooncake 用户无需改动,但可从统一抽象中受益。
SGLang is a high-performance serving framework for large language models and multimodal models.
NIXL 后端新增 staging buffer 支持异构 TP 批量 KV 传输
此 PR 重构了 NIXL 的 KV 传输路径,引入 staging buffer 后性能提升显著。代码抽象值得学习,尤其是 `register_fn` 回调模式。建议 NIXL 用户升级并启用 staging buffer。mooncake 用户无需改动,但可从统一抽象中受益。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-13 18:42
新增 DSV4 Flash 分离式推理 CI 测试
本 PR 结构清晰、注释简洁,适合作为编写分离式端到端测试的范例。建议关注 GSM8K 阈值在长期运行中的稳定性,若出现 flaky 可调整为 0.90。另外,TP/DP 配比的设计选择值得注意:在 8 卡环境下用 4+4 分离而非 8+0 或 1+1,体现了对 DP 注意力测试覆盖的刻意倾斜。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-13 17:57
AMD JIT kernel 测试接入 run_suite.py 注册机制
建议合并。这是一次良好的基础设施统一化变更,提高了可维护性和可扩展性。
跳过GLM-5 NSA TileLang解码中冗余的CatArrayBatchedCopy
值得精读。该 PR 展示了如何通过分析数据流中的冗余操作实现零成本优化,并通过精密的条件控制确保向后兼容。设计决策(零拷贝视图、gated cat-skip、仅限HIP)可作为同类优化工程的范例。重点关注 `forward_mla.py` 中 `forward_absorb_core` 的 decode 分支和 `nsa_backend.py` 中 `forward_decode` 的 `q_all` 传递逻辑。
AMD NSA indexer 启用 preshuffle paged MQA 和 page_size=64,提升高并发性能
该 PR 值得精读,特别是 preshuffle 布局与 page_size 配合的设计思路,以及如何通过包装 aiter 和 Triton 两套实现来保持兼容性。建议重点关注 Triton fallback 的风险,并在未来 PR 中补充相应测试。
原始 PR · 作者 merrymercy · 合并时间 2026-05-13 16:51
新增两位贡献者到 CI 权限名单
变更简单且明确,可以直接合并。无需精读。
修复 Gemma3 NPU 因 transformers 升级导致的精度下降
值得合并:这是一个精准的 bugfix,以极小改动(+2/-1)修复了因上游依赖变更导致的精度回归,并提供了明确的测试数据证明改善。建议在类似模型变更中同步检查 transformers 5.x 的兼容性。
原始 PR · 作者 Religious-J · 合并时间 2026-05-13 16:32
通过 diffusers_kwargs 传递 max_sequence_length 控制文本编码长度
值得精读,特别是如何通过 `is_flux_v1()` 方法将模型特殊逻辑封装到 PipelineConfig 中,避免在核心编码阶段做 model-specific 判断。设计决策平衡了通用性和正确性。建议添加测试覆盖主要 pipeline 的 `max_sequence_length` 路径。
参与讨论