执行摘要
新增 Diffusion MXFP4 量化文档
MXFP4 量化已通过 PR #22338 实现,需要补充文档指导用户使用。PR body 提到这是对 #22338 的文档跟进。
值得快速合并,对用户友好。可参考此文档组织后续量化特性的文档更新。
无实质 review 讨论,仅有两个 Gemini 机器人的配额警告,未影响评审。最终由 sglang-npu-bot 合并。
MXFP4 量化已通过 PR #22338 实现,需要补充文档指导用户使用。PR body 提到这是对 #22338 的文档跟进。
值得快速合并,对用户友好。可参考此文档组织后续量化特性的文档更新。
无实质 review 讨论,仅有两个 Gemini 机器人的配额警告,未影响评审。最终由 sglang-npu-bot 合并。
docs_new/docs/sglang-diffusion/quantization.mdx 中的量化方法表格,将 MXFP4 补充进 msmodelslim 支持列表;mxfp4 支持标注;--quantization mxfp4_npu 的使用方式,解释 mxfp4_npu 名称由来(为 Ascend 保留 mxfp4,ROCm/aiter 使用另一 key),并提及双级 block scales(L1=32, L0=512)。wan_repack.py 转换、双级 scale 和 mul_scale 的加载逻辑。docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx 量化支持表格,为 Ascend A5 和 Diffusion 增加 MXFP4 Linear 支持行。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
docs_new/docs/sglang-diffusion/quantization.mdx |
文档 | modified | 3.91 |
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx |
文档 | modified | 2.92 |
分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
纯文档变更,无技术风险。但需确保文档中的命令参数、硬件要求与实际实现一致,避免误导用户。
影响 Diffusion 用户和 Ascend NPU 用户:明确 MXFP4 量化的启用方法和注意事项,降低使用门槛。文档更新不影响运行时行为。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论