Prhub

#24918 :memo: docs(diffusion): add MXFP8 quantization docs for Wan2.2 on Ascend NPU

原始 PR 作者 TallMessiWu 合并时间 2026-05-11 13:13 文件变更 2 提交数 1 评论 6 代码增减 +41 / -8

执行摘要

补充 Wan2.2 Ascend NPU MXFP8 量化文档

将已合并的 MXFP8 Diffusion PR(#20922)对应的文档补充完整,使用户能够了解和使用 Nan2.2 在 Ascend NPU 上的 MXFP8 量化能力。

该 PR 为标准文档补充,适合所有使用 Ascend NPU 的 Diffusion 用户参考。源码层风险已由作者标注为不适用,无需额外关注。

讨论亮点

Review 评论主要来自 gemini-code-assist[bot],针对 wan_repack.pyfp8.py 源码提出了三个问题:

  1. load_sharded_safetensors 不支持分片 checkpoint,会直接报错。
  2. shutil.copytree 缺少 dirs_exist_ok=True 参数,重跑会因目录已存在而崩溃。
  3. 使用 parameter.data 直接赋值应替换为 copy_()

作者 TallMessiWu 均回复“No longer applicable”,表明这些代码问题在文档更新中已被规避或已由其他 PR 修复。

实现拆解

  1. 更新 docs_new/docs/sglang-diffusion/quantization.mdx
    • 在 msmodelslim 量化家族表中加入 mxfp8 条目。
    • wan_repack.py 的使用方式从多步骤工作流简化为一步命令,并增加支持的 --model-type 参数说明。
    • 在可用方法列表中,将 W8A8_MXFP8(离线)和 mxfp8(在线)标记为已完成。
    • 新增“MXFP8 Online Quantization”和“MXFP8 Offline Quantization”两小节,分别介绍在线和离线量化的用法、硬件要求及示例命令。
  2. 更新 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx
    • 将 Ascend A5 系列和 Diffusion 对应的 MXFP8 状态从“WIP”改为“√”,表明已支持。

未涉及测试、配置或部署的修改。

文件 模块 状态 重要度
docs_new/docs/sglang-diffusion/quantization.mdx 文档 modified 3.66
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx 文档 modified 2.32

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

wan_repack.py 不支持分片 checkpoint 正确性

Bot 指出 load_sharded_safetensors 函数不支持分片权重,会抛出异常;作者回复“No longer applicable”。

结论:该问题不在当前 PR 涉及范围,文档更新不直接修改该脚本。 · 已解决

shutil.copytree 缺少 dirs_exist_ok 正确性

Bot 建议添加 dirs_exist_ok=True 防止重跑时崩溃;作者回复“No longer applicable”。

结论:同前,不在当前 PR 范围内。 · 已解决

parameter.data 赋值应改为 copy_() style

Bot 建议使用 copy_() 替代直接 .data 赋值;作者回复“No longer applicable”。

结论:同前,不适用。 · 已解决

风险与影响

无技术风险。仅文档更新,不涉及任何运行时代码变更。但需要注意文档中引用的 CLI 参数和脚本用法必须与实际代码保持一致,以免误导用户。

对用户:NPU 用户可参考文档使用 MXFP8 量化方式部署 Wan2.2 模型。
对系统:无直接系统影响。
对团队:文档更新减少用户提问,降低支持成本。
影响程度较小。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论