#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100
作者 mgoin · 合并时间 2026-04-18 07:42
为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。
该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。