#43706 [Perf] Optimize cutlass fp8 scaled mm bypassing padding, 20% kernel performance improvement
原始 PR · 作者 yewentao256 · 合并时间 2026-06-01 21:05
优化 FP8 矩阵乘法绕过 padding,提升 20% 性能
该 PR 值得维护者精读,展示了一种优雅的 padding 绕过优化模式:通过检查对齐条件选择不同执行路径,并在 `torch.compile` 下使用 `torch.cond` 保持可编译性。同时,review 中的建议进一步优化了完全对齐的情况,体现了合作改进的价值。
参与讨论