#35175 [Bugfix] Restore CUDA graph persistent buffers for FP8 FlashMLA decode
作者 haosdent · 合并时间 2026-03-27 00:13
修复 FP8 FlashMLA 解码中的 CUDA 图持久缓冲区缺失 bug,避免输出乱码。
此 PR 值得精读,因为它揭示了 CUDA 图与张量地址管理的微妙交互,以及如何在重构后保持缓冲区一致性。关注条件检查、断言保留的原因和与 PR #32810 的关联,有助于理解 vLLM 中注意力后端的演进。
参与讨论