#38835 [Attention] relax the head dim 512 and paged kv for sm90+FA4
原始 PR · 作者 IwakuraRein · 合并时间 2026-04-09 02:23
解除 SM90 GPU 上 FlashAttention 4 对 head dim 512 和 paged KV 的限制,提升大模型性能。
建议技术管理者和工程师精读此 PR,特别是 flash_attn.py 中的变更,以理解如何通过版本控制和硬件检测来优化注意力后端选择。设计决策值得关注,如动态升级 FA4 和条件性支持 head size,可用于类似场景。
参与讨论