修复MLA吸收路径在分段CUDA图中因key/value为None崩溃
值得精读,特别是理解分段 CUDA 图(PCG/BCG)与 MLA 吸收路径的交互。设计上保持与非分段路径的兼容性,但缺少单元测试验证是一个风险。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复MLA吸收路径在分段CUDA图中因key/value为None崩溃
值得精读,特别是理解分段 CUDA 图(PCG/BCG)与 MLA 吸收路径的交互。设计上保持与非分段路径的兼容性,但缺少单元测试验证是一个风险。
修复FlexAttention掩码方法因绑定self导致跟踪崩溃
值得合入,属于低风险高质量修复。建议读者关注 `@staticmethod` 在避免意外闭包捕获方面的设计模式。
修复 FlashAttention DRAFT_EXTEND_V2 缓存范围错误
值得精读。该 PR 展示了注意力后端中缓存范围元数据的精细语义差异,特别是 DRAFT_EXTEND_V2 中 seq_lens 与有效缓存长度不一致时的正确处理方式。设计决策如 per-request 求和取最大值而非简单双 max 求和,体现了对偏斜分布的考量,值得在其他注意力后端实现中参考。
原始 PR · 作者 charlotte12l · 合并时间 2026-05-28 15:52
修复 FlashInfer SWA/交叉注意力路径遗漏 deterministic 参数
建议合并。该 PR 修复了一个隐蔽的确定性保证缺陷,改动量小,风险低,且作者已通过内部 SWA 模型验证了修复效果。
修复CI中FA3的CUDA Graph捕获顺序导致的IMA
建议精读。本 PR 展示了如何通过环境变量 + 后端检测条件性地调整 CUDA Graph 捕获策略,修复一个难以排查的内存越界问题。设计上避免了 test 依赖混入生产代码,值得参考。
原始 PR · 作者 DarkSharpness · 合并时间 2026-05-28 15:49
重写JIT kernel benchmark框架,替换triton.testing
建议精读此PR,尤其是`marker.py`中`do_bench`的实现和`parametrize`的pytest风格设计。它为CUDA kernel benchmark提供了一套可复用的轻量方案,值得其他项目借鉴。`bench_qknorm.py`的迁移展示了如何大幅简化代码。
适配 DotsVLM 与 transformers v5 API 变更
建议合并。变更简单、风险低,解决已知的兼容性问题。未来可考虑在多模态 processor 基类中统一处理此类版本兼容逻辑,减少重复适配工作。
支持FlashInfer Cute-DSL MLA解码后端,Blackwell性能提升约18%
值得精读,尤其注意workspace隔离的设计模式和speculative decode的回退策略。对于Blackwell上部署MLA模型的团队,建议试用并关注后续FlashInfer优化。
参与讨论