Prhub

#25904 :memo: docs(diffusion): add MXFP4 quantization docs

原始 PR 作者 TallMessiWu 合并时间 2026-05-25 15:24 文件变更 2 提交数 1 评论 2 代码增减 +54 / -1

执行摘要

新增 Diffusion MXFP4 量化文档

MXFP4 量化已通过 PR #22338 实现,需要补充文档指导用户使用。PR body 提到这是对 #22338 的文档跟进。

值得快速合并,对用户友好。可参考此文档组织后续量化特性的文档更新。

讨论亮点

无实质 review 讨论,仅有两个 Gemini 机器人的配额警告,未影响评审。最终由 sglang-npu-bot 合并。

实现拆解

  1. 更新 docs_new/docs/sglang-diffusion/quantization.mdx 中的量化方法表格,将 MXFP4 补充进 msmodelslim 支持列表;
  2. 在量化方法表格的表格项中增加 mxfp4 支持标注;
  3. 新增 “MXFP4 Online Quantization” 小节,说明 --quantization mxfp4_npu 的使用方式,解释 mxfp4_npu 名称由来(为 Ascend 保留 mxfp4,ROCm/aiter 使用另一 key),并提及双级 block scales(L1=32, L0=512)。
  4. 新增 “MXFP4 Offline Quantization (msmodelslim)” 小节,说明加载预量化权重的步骤,包括 wan_repack.py 转换、双级 scale 和 mul_scale 的加载逻辑。
  5. 更新 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx 量化支持表格,为 Ascend A5 和 Diffusion 增加 MXFP4 Linear 支持行。
文件 模块 状态 重要度
docs_new/docs/sglang-diffusion/quantization.mdx 文档 modified 3.91
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx 文档 modified 2.92

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

纯文档变更,无技术风险。但需确保文档中的命令参数、硬件要求与实际实现一致,避免误导用户。

影响 Diffusion 用户和 Ascend NPU 用户:明确 MXFP4 量化的启用方法和注意事项,降低使用门槛。文档更新不影响运行时行为。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论