#25904 :memo: docs(diffusion): add MXFP4 quantization docs

原始 PR 作者 TallMessiWu 合并时间 2026-05-25 15:24 文件变更 2 提交数 1 评论 2 代码增减 +54 / -1

执行摘要

MXFP4 量化已通过 PR #22338 实现，需要补充文档指导用户使用。PR body 提到这是对 #22338 的文档跟进。

值得快速合并，对用户友好。可参考此文档组织后续量化特性的文档更新。

讨论亮点

无实质 review 讨论，仅有两个 Gemini 机器人的配额警告，未影响评审。最终由 sglang-npu-bot 合并。

更新 docs_new/docs/sglang-diffusion/quantization.mdx 中的量化方法表格，将 MXFP4 补充进 msmodelslim 支持列表；
在量化方法表格的表格项中增加 mxfp4 支持标注；
新增 “MXFP4 Online Quantization” 小节，说明 --quantization mxfp4_npu 的使用方式，解释 mxfp4_npu 名称由来（为 Ascend 保留 mxfp4，ROCm/aiter 使用另一 key），并提及双级 block scales（L1=32, L0=512）。
新增 “MXFP4 Offline Quantization (msmodelslim)” 小节，说明加载预量化权重的步骤，包括 wan_repack.py 转换、双级 scale 和 mul_scale 的加载逻辑。
更新 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx 量化支持表格，为 Ascend A5 和 Diffusion 增加 MXFP4 Linear 支持行。

文件	模块	状态	重要度
`docs_new/docs/sglang-diffusion/quantization.mdx`	文档	modified	3.91
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx`	文档	modified	2.92

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

纯文档变更，无技术风险。但需确保文档中的命令参数、硬件要求与实际实现一致，避免误导用户。

影响 Diffusion 用户和 Ascend NPU 用户：明确 MXFP4 量化的启用方法和注意事项，降低使用门槛。文档更新不影响运行时行为。

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。