#25107 perf(nvfp4): free unused source scales after weight processing

原始 PR 作者 ch-wan 合并时间 2026-05-13 07:53 文件变更 1 提交数 3 评论 10 代码增减 +11 / -1

执行摘要

释放 NVFP4 权重量化中不再使用的源缩放张量

NVFP4权重加载后，多个源端缩放张量（如layer.input_scale、layer.weight_scale_2、layer.weight_scale）不再被前向推理使用，却一直占用GPU显存。PR描述中详细分析了每张量在apply()中的使用情况，确认删除的安全性。

该PR设计清晰，内存收益显著，风险可控，建议合并。值得关注其删除张量的策略和保留w13_weight_scale_2/w2_weight_scale_2的权衡。

讨论亮点

该PR没有Review评论，但作者在PR body中详细讨论了内存节省的计算和保留w13_weight_scale_2/w2_weight_scale_2的技术理由。

实现拆解

Linear方法 (ModelOptNvFp4LinearMethod.process_weights_after_loading)：在推导出alpha和input_scale_inv后，del layer.input_scale, layer.weight_scale_2。在FlashInfer-TRTLLM分支，del layer.weight_scale；在CUTLASS分支末尾同样del layer.weight_scale。
MoE方法 (ModelOptNvFp4FusedMoEMethod.process_weights_after_loading)：无条件删除w13_input_scale和w2_input_scale。TRTLLM分支删除w13_blockscale_swizzled和w2_blockscale_swizzled。非TRTLLM分支（CUTLASS/CuteDSL）末尾删除w13_weight_scale和w2_weight_scale。
保留w13_weight_scale_2和w2_weight_scale_2：因为flashinfer_cutedsl通过hasattr读取它们并存在后备路径，为避免精度漂移，保留并留下TODO。
删除过时注释：移除了“Keep per-shard scales intact for hot reload”注释，因为热加载会在process_weights_after_loading重新运行前重新绑定这些参数。
测试：未新增单元测试，但触发了多个CI测试（如test_nvidia_nemotron_3_super_nvfp4.py、test_deepseek_v4_flash_fp4_b200.py等）。

文件	模块	状态	重要度
`python/sglang/srt/layers/quantization/modelopt_quant.py`	量化	modified	6.3

关键符号

process_weights_after_loading

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

回归风险：如果apply()方法未来需要访问已删除的张量（如input_scale），会导致AttributeError。目前确认所有路径均不再使用这些张量，但需通过CI验证。
精度风险：保留w13_weight_scale_2/w2_weight_scale_2避免了潜在精度漂移，但删除其他张量可能影响未来兼容性。
热加载风险：热加载机制在重新运行process_weights_after_loading前会重新绑定参数，因此删除是安全的。

用户：显存显著降低（如Kimi-K2.5约15 GiB/rank），可能允许部署更大模型或增加批处理大小。
系统：无延迟影响，因为这些张量不在热路径上。
团队：需确保未来对apply()的修改不依赖于已删除张量。

核心路径变更缺少测试覆盖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：释放NVFP4权重量化中不再使用的源缩放张量
推荐动作：该PR设计清晰，内存收益显著，风险可控，建议合并。值得关注其删除张量的策略和保留w13_weight_scale_2/w2_weight_scale_2的权衡。

功能与动机

实现拆解

Linear方法 (ModelOptNvFp4LinearMethod.process_weights_after_loading)：在推导出alpha和input_scale_inv后，del layer.input_scale, layer.weight_scale_2。在FlashInfer-TRTLLM分支，del layer.weight_scale；在CUTLASS分支末尾同样del layer.weight_scale。
MoE方法 (ModelOptNvFp4FusedMoEMethod.process_weights_after_loading)：无条件删除w13_input_scale和w2_input_scale。TRTLLM分支删除w13_blockscale_swizzled和w2_blockscale_swizzled。非TRTLLM分支（CUTLASS/CuteDSL）末尾删除w13_weight_scale和w2_weight_scale。
保留w13_weight_scale_2和w2_weight_scale_2：因为flashinfer_cutedsl通过hasattr读取它们并存在后备路径，为避免精度漂移，保留并留下TODO。
删除过时注释：移除了“Keep per-shard scales intact for hot reload”注释，因为热加载会在process_weights_after_loading重新运行前重新绑定这些参数。
测试：未新增单元测试，但触发了多个CI测试（如test_nvidia_nemotron_3_super_nvfp4.py、test_deepseek_v4_flash_fp4_b200.py等）。

关键文件：

python/sglang/srt/layers/quantization/modelopt_quant.py（模块量化；类别 source；类型 core-logic；符号 ModelOptNvFp4LinearMethod.process_weights_after_loading, ModelOptNvFp4FusedMoEMethod.process_weights_after_loading）: 唯一修改文件，包含Linear和MoE方法的process_weights_after_loading中删除不再使用的缩放张量的逻辑。

关键符号：process_weights_after_loading

评论区精华

该PR没有Review评论，但作者在PR body中详细讨论了内存节省的计算和保留w13_weight_scale_2/w2_weight_scale_2的技术理由。

暂无高价值评论线程

风险与影响

风险：
1. 回归风险：如果apply()方法未来需要访问已删除的张量（如input_scale），会导致AttributeError。目前确认所有路径均不再使用这些张量，但需通过CI验证。
2. 精度风险：保留w13_weight_scale_2/w2_weight_scale_2避免了潜在精度漂移，但删除其他张量可能影响未来兼容性。
3. 热加载风险：热加载机制在重新运行process_weights_after_loading前会重新绑定参数，因此删除是安全的。
影响：
1. 用户：显存显著降低（如Kimi-K2.5约15 GiB/rank），可能允许部署更大模型或增加批处理大小。
2. 系统：无延迟影响，因为这些张量不在热路径上。
3. 团队：需确保未来对apply()的修改不依赖于已删除张量。
  - 风险标记：核心路径变更, 缺少测试覆盖

关联脉络

暂无明显关联 PR

#25107 perf(nvfp4): free unused source scales after weight processing

执行摘要

释放 NVFP4 权重量化中不再使用的源缩放张量

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论