#21649 fix: TRT-LLM MHA CUDA illegal address with EAGLE v2 + DP attention
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-06 00:41
修复TRT-LLM MHA在EAGLE v2推测解码+DP注意力下因批次大小不一致导致的CUDA非法地址错误。
该PR值得精读,尤其关注:1) DP注意力下批次大小不一致的根本原因分析;2) 从forward_batch.batch_size到元数据推导的设计决策,体现了与其他后端行为对齐的架构一致性;3) review中关于填充目的和注意力独立性的讨论,有助于理解分布式推理中的数据流设计。
参与讨论