执行摘要
该 PR 为 SGLang Diffusion 模块的 Wan2.2 模型在 Ascend NPU 上的 MXFP8 量化补充了用户文档,将在线/离线两种 MXFP8 模式从“进行中”标记为“已支持”,并提供了详细的用法示例和硬件要求。不涉及任何运行时代码变更,风险极低。
功能与动机
动机源自已合并的功能 PR #20922,该 PR 实现了 Wan2.2 在 Ascend NPU 上的 MXFP8 量化支持。当前文档 PR 补充了对应的用户文档,帮助用户了解和使用这些新特性。
实现拆解
-
更新 quantization.mdx:
- 在 msmodelslim 量化家族表中加入
mxfp8 条目。
- 将
wan_repack.py 的使用方式从多步骤工作流简化为一步命令,并增加支持的 --model-type 参数说明。
- 在可用方法列表中,将
W8A8_MXFP8(离线)和 mxfp8(在线)标记为已完成。
- 新增“MXFP8 Online Quantization”和“MXFP8 Offline Quantization”两小节,分别介绍在线和离线量化的用法、硬件要求及示例命令。
-
更新 ascend_npu_quantization.mdx:
- 将 Ascend A5 系列和 Diffusion 对应的 MXFP8 状态从“WIP”改为“√”,表明已支持。
-
测试与部署:无相关修改。
无可用关键源码片段(文档仅包含文本和 Markdown 表格)。
评论区精华
Review 中 gemini-code-assist[bot] 提出了三个涉及 wan_repack.py 和 fp8.py 的代码问题:
load_sharded_safetensors 不支持分片 checkpoint,会直接报错。
shutil.copytree 缺少 dirs_exist_ok=True 参数,重跑会崩溃。
使用 parameter.data 直接赋值应替换为 copy_()。
作者 TallMessiWu 均回复“No longer applicable”,表明这些代码问题在当前文档变更中已被规避或已由其他 PR 修复,不适用于此。
风险与影响
风险:无。文档变更不产生任何回归风险。
影响:
- 用户:Ascend NPU 用户可直接参考文档使用 MXFP8 量化部署 Wan2.2。
- 系统:无影响。
- 团队:减少对同一问题的用户咨询。
关联脉络
- 关联 PR #20922:实现了 Wan2.2 MXFP8 量化功能,当前 PR 为其补充文档,属于同一功能线的配套更新。
参与讨论