#26241 [perf][spec decoding] Skip common_template in TRTLLMMLAMultiStepDraftBackend init
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-25 12:36
跳过 TRTLLM MLA 中不必要的 kv-indices 计算
推荐合并。该 PR 是一个简洁、低风险的性能优化,通过消除冗余的 GPU kernel 调用实现了约 2.5% 的吞吐提升,且不影响正确性。变更加上 benchmark 数据清晰有说服力,值得精读其设计思路。
参与讨论