Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

triton 相关 PR

2026-05-07

#20479 Support Triton MLA FP8 KV cache

原始 PR · 作者 b8zhong · 合并时间 2026-05-07 09:32

性能优化 重要性 6.54 洞察度 6.00

支持 Triton MLA FP8 KV 缓存,长序列性能提升 91%

值得所有关注 MLA 和 Triton 内核优化的工程师精读。特别是 `v = tl.trans(k)` 技巧、KV Splits 的动态计算、以及 PDL 的使用都是可以直接复用到其他模型的优化模式。建议在后续 PR 中补充单元测试和 `k_scale==v_scale` 的检查。