#26383 [AMD][DSV4] DSV4 MTP graph + sparse triton attn optimizations
原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-28 06:23
修复 DSV4 MTP 在 ROCm 上的 CUDA Graph 捕获并优化注意力与融合 kernel
建议精读。该 PR 展示了如何在不破坏 CUDA 路径的前提下为 ROCm 修复关键错误并注入性能优化,其设计权衡(始终 eager 构造、fused kernel 阈值选择、三级 fallback 模式)值得学习。尤其推荐关注 `deepseek_v4_fused_mhc.py` 中的缓冲池与运行时禁用机制。
参与讨论