#22342 [AMD] Enable DFLASH speculative decoding on ROCm
作者 andyluo7 · 合并时间 2026-04-18 04:10
在 AMD ROCm 平台上启用 DFLASH 推测解码,支持 Triton 注意力后端。
该 PR 值得精读,特别是 `dflash_worker.py` 中的后端选择逻辑和 `triton_backend.py` 中的掩码防护设计,展示了如何优雅地处理平台差异和边缘情况。关注 ROCm 检测的实现方式及其对默认行为的影响。