执行摘要
修复 NVFP4 量化扩散模型的权重缩放交织并优化大 M 核配置。
PR body中说明动机为修复两个bug:
ModelOptFp4LinearMethod.process_weights_after_loading()缺失CUTLASS TMA内核所需的块交织(swizzle),导致CUTLASS降级路径产生错误结果,cosine相似度下降约5%;KernelConfigDefault(集群4×4)在FLUX.2模型M≈4352时浪费约25%的最后一个M波计算资源。同时移除comfy-kitchen依赖以简化代码。
建议扩散模型和量化模块的工程师精读此PR,关注权重swizzle修复的实现细节(modelopt_quant.py中的reshape/permute操作)和核配置优化的设计决策(nvfp4_scaled_mm_sm100.cuh中的集群调整),以理解NVFP4量化在Blackwell GPU上的最佳实践和性能调优技巧。
Review过程简单,仅由reviewer mickqian批准,未引发技术讨论或争议。这表明变更被认为直接且风险低,已通过CI测试。
参与讨论