#24925 [attn backend] Integrate tokenspeed_mla prefill/decode kernels (fp8 kv cache, blackwell)
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-14 08:36
集成 tokenspeed_mla Blackwell MLA 内核后端
建议阅读 `tokenspeed_mla_backend.py` 了解子类化扩展点设计,学习如何通过重构 `trtllm_mla_backend.py` 实现内核调度可替换。关注 `tokenspeed_mla` 包的安装与验证流程。未来可基于此模式集成更多 CuTe DSL 内核。
参与讨论