#18032 [NPU] Support Hybrid KV Cache for Ascend backend
作者 gjsheu · 合并时间 2026-03-26 11:27
为Ascend NPU后端实现Hybrid KV Cache支持,优化内存效率和推理吞吐量。
该PR值得精读,因为它展示了如何为特定硬件后端适配高级优化特性,涉及内存管理、注意力机制和硬件兼容性的关键设计决策。建议重点关注ascend_backend.py中SWA块表的集成逻辑和条件判断的处理方式,以及swa_memory_pool.py中设备选择机制的实现。
参与讨论