#25489 Support draft extend cuda graph for tokenspeed_mla attention backend
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-19 02:26
支持 tokenspeed_mla 注意力后端的 draft extend CUDA graph
建议精读。本 PR 虽改动量小,但展示了 speculative decoding 框架在为新型注意力后端添加 CUDA graph 支持时的典型模式:导入后端类、添加到 `isinstance` 条件列表。对于关注 Blackwell 架构 token speed 模式或计划扩展其他后端的开发人员具有参考价值。
参与讨论