#23557 [Intel GPU] Integrate flash_mla_decode in Intel XPU attention backend
原始 PR · 作者 polisettyvarma · 合并时间 2026-05-01 07:21
Intel XPU 后端集成 MLA decode 支持
此 PR 值得精读,尤其是了解如何将硬件特定内核(flash_mla_decode)集成到现有注意力后端架构中,以及如何通过参数验证来强制执行配置约束。三个技术决策值得关注:1)在 `init_forward_metadata` 中分配工作空间的方式;2)对 speculative decoding 的显式断言;3)非 MLA 和 MLA 模型的不同 page_size 约束设计。
参与讨论