#22051 [MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine)
原始 PR · 作者 froststeam · 合并时间 2026-04-11 05:18
修复MUSA GPU的FA3 attention后端支持,集成MATE引擎并修复内核选择逻辑。
此PR值得精读,特别关注MusaFlashAttentionBackend的设计,它展示了如何通过继承和重写集成新硬件后端。建议工程师学习内核选择逻辑的移动(从运行时到初始化)以提升性能,并注意讨论中全球缓冲区和缓存管理的权衡,这些设计决策对多GPU和并发场景有重要启示。
参与讨论