#22517 Use reshape instead of contiguous().view() in TRTLLMHAAttnBackend
作者 merrymercy · 合并时间 2026-04-14 05:29
将TRT-LLM注意力后端中的contiguous().view()替换为reshape(),避免不必要的内存复制。
该PR变更简单直接,值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题,建议后续跟进修复。对于学习PyTorch张量操作优化的工程师,这是一个很好的小案例。