#23845 [Docs] Update Ascend NPU GGUF quantization documentation

原始 PR 作者 TheKonka 合并时间 2026-04-27 22:30 文件变更 3 提交数 1 评论 2 代码增减 +133 / -81

执行摘要

更新 Ascend NPU GGUF 量化文档及支持表格

随着 Ascend NPU 平台对 GGUF 量化模型的支持完善，需要更新文档以反映最新的功能状态和用法，方便用户正确使用 GGUF 量化模型。

建议文档维护者根据 review 建议补充 --load-format gguf 参数，并确保示例在实际环境中可运行。同时对新增的 GGUF 支持进行端到端验证，避免文档与实现脱节。

讨论亮点

在 review 中，gemini-code-assist[bot] 指出两个 GGUF 启动示例（稠密和 MoE）均缺少必要的 --load-format gguf 参数，可能导致引擎无法识别 .gguf 文件。该建议未被采纳或后续未修改即合并，当前文档示例可能无法直接使用。

实现拆解

更新量化支持表格：在 ascend_npu_quantization.mdx 中，将表格内嵌的 HTML <span style="..."> 全部替换为 React JSX 的 <strong style={{color: '...'}}> 写法，并调整部分支持状态（例如 W4A4 动态 MoE 在 NPU 上标记为 TBD，MXFP8 仍为 WIP）。
标记 GGUF 支持：在 quantization.mdx 的集成支持表中将 GGUF 的 NPU 列从 "No" 改为 "Yes"，并增加注释说明实现依赖于 CPU 预反量化。
更新支持特性列表：在 ascend_npu_support_features.mdx 的 --load-format 可选值中新增 gguf。
添加命令示例：在 ascend_npu_quantization.mdx 末尾新增密集模型（Qwen3-14B）和 MoE 模型（Qwen3-30B-A3B）的 GGUF 启动示例，但 review 指出示例中缺少 --load-format gguf 参数。

文件	模块	状态	重要度
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_quantization.mdx`	NPU 量化	modified	4.82
`docs_new/docs/advanced_features/quantization.mdx`	量化文档	modified	2.72
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_support_features.mdx`	NPU 特性	modified	2.14

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

命令示例缺少 --load-format gguf 参数 正确性

gemini-code-assist[bot] 指出两个 GGUF 启动示例（稠密和 MoE）均缺少必要的 --load-format gguf 参数，会导致加载失败，并提供了修正后的命令示例。

结论：未采纳，PR 未修改即合并，当前文档示例可能无法直接使用。 · unresolved

风险与影响

文档变更风险极低，但命令示例的准确性直接影响用户操作，缺少 --load-format gguf 参数可能导致用户执行失败。此外，表格状态（如 MXFP8 WIP）需与代码发展保持同步，否则可能误导用户。

影响范围限于文档读者，主要是 Ascend NPU 用户。正确性影响中等，若示例缺失参数，用户可能无法直接复制使用。团队维护成本低，后续需及时更新示例。

文档示例可能缺失参数表格状态可能与实际不一致

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 属于纯文档更新，主要针对 Ascend NPU 的 GGUF 量化支持进行文档同步，更新了量化支持表格、新增 GGUF 启动示例，并调整了相关支持标记。review 中发现示例缺少关键参数，但未修改即合并，存在误导用户的潜在风险。

功能与动机

随着 Ascend NPU 平台对 GGUF 量化模型的支持完善，需要更新文档以准确反映当前功能状态，并为用户提供可直接使用的启动命令。PR 旨在消除文档滞后，降低用户使用门槛。

实现拆解

表格样式迁移：将 ascend_npu_quantization.mdx 中的 HTML span 内联样式全部替换为 React JSX 的 <strong style={{color: ...}}> 写法，统一文档工程风格。
支持状态更新：在 quantization.mdx 中将 GGUF 对 NPU 的支持从“No”改为“Yes”，并注明实现方式为“CPU pre-dequantization at load time”。
加载格式扩展：在 ascend_npu_support_features.mdx 的 --load-format 枚举中新增 gguf 值。
示例添加：在 ascend_npu_quantization.mdx 末尾提供稠密模型和 MoE 模型的 GGUF 启动命令。

以下为 `ascend_npu_quantization.mdx` 中更新后的表格行示例，展示了 GGUF 支持标记和样式写法：

{/* 更新后的表格行示例：GGUF 支持状态，使用 React JSX 样式 */}
<tr>
  <td>GGUF</td>
  <td>Linear</td>
  <td><strong style={{color: 'green'}}>√</strong></td> {/* CUDA 支持 */}
  <td><strong style={{color: 'red'}}>x</strong></td>  {/* ROCm 不支持 */}
  <td><strong style={{color: 'green'}}>Yes</strong></td> {/* NPU：已支持，通过 CPU 预反量化 */}
</tr>

评论区精华

gemini-code-assist[bot] 指出两个启动示例均缺少 --load-format gguf 参数，并提供了修正版本。由于该建议未被采纳，当前文档中的命令可能无法直接执行。

风险与影响

风险：缺少 --load-format gguf 参数会导致加载失败，用户如果直接复制命令会遭遇错误，降低信任度。
影响：仅影响阅读文档的 NPU 用户，需关注后续是否有人提交修复 PR。建议团队尽快补充缺失参数。

关联脉络

该 PR 是 Ascend NPU 文档系列的一部分，与其他 NPU 相关文档（如 #23824 新模型支持指南）共同完善平台文档体系。后续建议与代码实现保持同步，确保文档示例经过测试。

#23845 [Docs] Update Ascend NPU GGUF quantization documentation

执行摘要

更新 Ascend NPU GGUF 量化文档及支持表格

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论