#26626 [perf] Fuse NVFP4 gate_up_gemm + swiglu + output FP4 quant
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-30 04:16
融合 NVFP4 gate_up_gemm+Swish+输出量化,K2.5 推理提升约 2%
本 PR 展示了如何利用 CUTLASS DSL 进行算子融合来优化特定硬件路径。推荐算法工程师和推理优化工程师阅读,重点关注融合策略和权重重排方案。对于不涉及 Blackwell 或 NVFP4 的开发者,可跳过源码细节。
参与讨论