#6963 [Feature] Support NVFP4 Flashinfer-cutedsl MoE on SM100
作者 mpgemm · 合并时间 2026-03-30 11:37
支持SM100 GPU上的NVFP4 FlashInfer CuteDSL MoE后端,提升量化混合专家模型推理性能。
建议精读此PR,重点关注`nvfp4.py`中的权重处理逻辑和`flashinfer_cutedsl_moe.py`的核心设计,以理解量化MoE后端集成的技术权衡。对于维护者,需注意外部依赖的兼容性风险和硬件限制。
参与讨论