#20562 Use torch.addmm instead of separate mm and add_ calls for LoRA torch.native
原始 PR · 作者 satyamk7054 · 合并时间 2026-03-27 05:35
LoRA torch-native 后端融合 mm+add_ 为 addmm
值得精读。该 PR 展示了典型的 PyTorch 算子融合优化模式(将多次 CUDA 内核调用合并为一次 `addmm`),是性能调优的经典案例。同时,`.item()` 使用和 CPU 张量预分配的做法值得借鉴。
参与讨论