#38325 [Kernel] Add swapAB support for SM120 CUTLASS blockwise FP8 GEMM
作者 Nekofish-L · 合并时间 2026-04-03 21:49
为SM120架构CUTLASS块级FP8 GEMM添加swapAB支持,优化小M维度性能。
值得精读以学习 CUTLASS 优化技巧和 swapAB 策略,特别关注启发式选择的 trade-offs 和模板元编程实现细节。工程师可参考此 PR 了解如何通过转置优化小维度 GEMM 性能。