#35891 [Perf] Support FP8 KV cache for Flashinfer MLA Sparse
作者 wzhao18 · 合并时间 2026-03-08 05:51
为Flashinfer MLA Sparse attention backend添加FP8 KV缓存支持,实现约14%吞吐提升。
建议技术管理者和工程师精读此PR,特别是关注mla_attention.py中的dtype转换逻辑和flashinfer_mla_sparse.py的backend扩展,以理解fp8 kv cache的设计权衡和性能优化策略。
参与讨论