#24918 :memo: docs(diffusion): add MXFP8 quantization docs for Wan2.2 on Ascend NPU

原始 PR 作者 TallMessiWu 合并时间 2026-05-11 13:13 文件变更 2 提交数 1 评论 6 代码增减 +41 / -8

执行摘要

补充 Wan2.2 Ascend NPU MXFP8 量化文档

将已合并的 MXFP8 Diffusion PR（#20922）对应的文档补充完整，使用户能够了解和使用 Nan2.2 在 Ascend NPU 上的 MXFP8 量化能力。

该 PR 为标准文档补充，适合所有使用 Ascend NPU 的 Diffusion 用户参考。源码层风险已由作者标注为不适用，无需额外关注。

讨论亮点

Review 评论主要来自 gemini-code-assist[bot]，针对 wan_repack.py 和 fp8.py 源码提出了三个问题：

load_sharded_safetensors 不支持分片 checkpoint，会直接报错。
shutil.copytree 缺少 dirs_exist_ok=True 参数，重跑会因目录已存在而崩溃。
使用 parameter.data 直接赋值应替换为 copy_()。

作者 TallMessiWu 均回复“No longer applicable”，表明这些代码问题在文档更新中已被规避或已由其他 PR 修复。

实现拆解

更新 docs_new/docs/sglang-diffusion/quantization.mdx：
- 在 msmodelslim 量化家族表中加入 mxfp8 条目。
- 将 wan_repack.py 的使用方式从多步骤工作流简化为一步命令，并增加支持的 --model-type 参数说明。
- 在可用方法列表中，将 W8A8_MXFP8（离线）和 mxfp8（在线）标记为已完成。
- 新增“MXFP8 Online Quantization”和“MXFP8 Offline Quantization”两小节，分别介绍在线和离线量化的用法、硬件要求及示例命令。
更新 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx：
- 将 Ascend A5 系列和 Diffusion 对应的 MXFP8 状态从“WIP”改为“√”，表明已支持。

未涉及测试、配置或部署的修改。

文件	模块	状态	重要度
`docs_new/docs/sglang-diffusion/quantization.mdx`	文档	modified	3.66
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx`	文档	modified	2.32

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

wan_repack.py 不支持分片 checkpoint 正确性

Bot 指出 load_sharded_safetensors 函数不支持分片权重，会抛出异常；作者回复“No longer applicable”。

结论：该问题不在当前 PR 涉及范围，文档更新不直接修改该脚本。 · 已解决

shutil.copytree 缺少 dirs_exist_ok 正确性

Bot 建议添加 dirs_exist_ok=True 防止重跑时崩溃；作者回复“No longer applicable”。

结论：同前，不在当前 PR 范围内。 · 已解决

parameter.data 赋值应改为 copy_() style

Bot 建议使用 copy_() 替代直接 .data 赋值；作者回复“No longer applicable”。

结论：同前，不适用。 · 已解决

风险与影响

无技术风险。仅文档更新，不涉及任何运行时代码变更。但需要注意文档中引用的 CLI 参数和脚本用法必须与实际代码保持一致，以免误导用户。

对用户：NPU 用户可参考文档使用 MXFP8 量化方式部署 Wan2.2 模型。
对系统：无直接系统影响。
对团队：文档更新减少用户提问，降低支持成本。
影响程度较小。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该 PR 为 SGLang Diffusion 模块的 Wan2.2 模型在 Ascend NPU 上的 MXFP8 量化补充了用户文档，将在线/离线两种 MXFP8 模式从“进行中”标记为“已支持”，并提供了详细的用法示例和硬件要求。不涉及任何运行时代码变更，风险极低。

功能与动机

动机源自已合并的功能 PR #20922，该 PR 实现了 Wan2.2 在 Ascend NPU 上的 MXFP8 量化支持。当前文档 PR 补充了对应的用户文档，帮助用户了解和使用这些新特性。

实现拆解

更新 quantization.mdx：
- 在 msmodelslim 量化家族表中加入 mxfp8 条目。
- 将 wan_repack.py 的使用方式从多步骤工作流简化为一步命令，并增加支持的 --model-type 参数说明。
- 在可用方法列表中，将 W8A8_MXFP8（离线）和 mxfp8（在线）标记为已完成。
- 新增“MXFP8 Online Quantization”和“MXFP8 Offline Quantization”两小节，分别介绍在线和离线量化的用法、硬件要求及示例命令。
更新 ascend_npu_quantization.mdx：
- 将 Ascend A5 系列和 Diffusion 对应的 MXFP8 状态从“WIP”改为“√”，表明已支持。
测试与部署：无相关修改。

无可用关键源码片段（文档仅包含文本和 Markdown 表格）。

评论区精华

Review 中 gemini-code-assist[bot] 提出了三个涉及 wan_repack.py 和 fp8.py 的代码问题：

load_sharded_safetensors 不支持分片 checkpoint，会直接报错。
shutil.copytree 缺少 dirs_exist_ok=True 参数，重跑会崩溃。
使用 parameter.data 直接赋值应替换为 copy_()。

作者 TallMessiWu 均回复“No longer applicable”，表明这些代码问题在当前文档变更中已被规避或已由其他 PR 修复，不适用于此。

风险与影响

风险：无。文档变更不产生任何回归风险。

影响：

用户：Ascend NPU 用户可直接参考文档使用 MXFP8 量化部署 Wan2.2。
系统：无影响。
团队：减少对同一问题的用户咨询。

关联脉络

关联 PR #20922：实现了 Wan2.2 MXFP8 量化功能，当前 PR 为其补充文档，属于同一功能线的配套更新。

#24918 :memo: docs(diffusion): add MXFP8 quantization docs for Wan2.2 on Ascend NPU

执行摘要

补充 Wan2.2 Ascend NPU MXFP8 量化文档

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论