#21383 [diffusion] [NPU] support ring attention on NPU with FA
原始 PR · 作者 Makcum888e · 合并时间 2026-03-31 01:10
新增NPU Ascend Flash Attention后端,支持ring attention。
建议技术管理者关注此PR,以了解如何为不同平台添加定制attention backend的架构模式。工程师可精读`ascend_fa.py`中的实现,学习如何集成硬件专用操作并遵循抽象基类设计,以及通过review讨论了解代码优化点。
参与讨论