Prhub

#27032 [NPU] add GLM model best practice docs

原始 PR 作者 Hide-on-bushsh 合并时间 2026-06-05 14:27 文件变更 1 提交数 5 评论 64 代码增减 +655 / -22

执行摘要

新增 GLM 模型 NPU 最佳实践文档,修复链接和路径

PR 作者旨在为 GLM 模型补充在 Ascend NPU 上的最佳实践文档,以便用户能够参考部署和调优。同时修复现有文档中的一些失效链接和硬编码路径,提升文档可用性。

对于在 Ascend NPU 上部署 GLM 模型的用户,本 PR 提供的文档具有直接参考价值。对于文档维护者,可以关注 review 中对锚点 slug 化处理和硬编码路径替换的讨论,作为文档编写最佳实践。建议合并后对锚点链接进行自动化校验,防止未来因渲染规则变化导致失效。

讨论亮点
  • 锚点链接 slug 化问题:gemini-code-assist[bot] 指出 MiniMax-M2.5 和 GLM-5.1 锚点中的点号被 slug 化去除,导致链接指向错误。作者最初认为无需修改,但最终提交中锚点被修正为正确格式。
  • 硬编码路径问题:gemini-code-assist[bot] 指出命令中包含 /home/luochen 等用户特定路径,要求替换为占位符。作者全部采纳。
  • 废弃参数移除:amote-i 指出 --prefill-round-robin-balance 已废弃,作者删除。
  • 配置说明补充:cen121212 多次要求对 SGLANG_SET_CPU_AFFINITY、ZBAL 包、MTP 量化排除等添加注释,作者逐一增加了说明。

实现拆解

  1. 新增 GLM 模型基准测试章节:在 ascend_npu_best_practice.mdx 中添加了 GLM-5 和 GLM-5.1 的多个子章节,涵盖不同输入长度(3.5K+1.5K、64K+1K、128K+1K)和数据集(RANDOM、90% cache-hit)的场景。每个子章节包含模型标识、硬件规格、启动命令和性能数据表格。
  2. 修复锚点链接:将 MiniMax-M2.5 和 GLM-5.1 的锚点 href 从错误的格式(如 #minimax-m2-5-...)修正为符合 slug 化规则的正确格式(如 #minimax-m25-...),避免了跳转失效。
  3. 替换硬编码路径:将部署命令中的 /home/luochen、/home/chenxu、/home/weights 等特定用户路径替换为通用的 /path/to/... 占位符,使命令可被一般用户直接使用。
  4. 删除废弃参数:移除了示例中的 --prefill-round-robin-balance 参数,该参数已被 sglang 废弃。
  5. 增加配置说明注释:根据 reviewer 要求,为 SGLANG_SET_CPU_AFFINITY 等环境变量添加了适用场景注释,说明哪些选项仅适用于量化模型或非量化 MTP 层。
文件 模块 状态 重要度
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_best_practice.mdx NPU 文档 modified 5.22

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

MiniMax-M2.5 和 GLM-5.1 锚点链接 slug 化问题 正确性

gemini-code-assist[bot] 指出锚点 href 中 MiniMax-M2.5 被改为 minimax-m2-5,但实际 slug 应为 minimax-m25(点号被去除),建议保持原样或使用正确 slug。类似问题出现在 GLM-5.1 锚点。

结论:作者最初认为不需要修改,但最终版本中锚点被修正为正确形式(如 minimax-m25-...)。 · 已解决

硬编码用户路径应替换为通用占位符 正确性

gemini-code-assist[bot] 指出命令和路径中包含 /home/luochen、/home/weights 等用户特定路径,要求替换为 /path/to/... 占位符。

结论:作者将所有实例替换为通用占位符。 · 已解决

废弃参数 --prefill-round-robin-balance 正确性

amote-i 指出该参数已废弃,不应出现在文档中。

结论:作者删除该参数。 · 已解决

配置选项适用条件说明 documentation

cen121212 多次要求对 SGLANG_SET_CPU_AFFINITY 等环境变量添加注释,说明其适用场景(如仅量化模型、非量化 MTP 层等)。

结论:作者在每个变量处添加了注释说明。 · 已解决

风险与影响

纯文档变更,技术风险极低。主要风险包括:

  1. 锚点链接仍可能失效:部分链接格式是否正确依赖于最终文档渲染引擎的 slug 规则,若规则不一致可能导致跳转失败。
  2. 性能数据可能过时:文档中的基准数据基于特定硬件和软件版本,后续版本更新后可能需要同步更新。
  3. 命令可移植性:尽管已替换为占位符,但部分环境变量(如 LD_LIBRARY_PATH)可能因 Ascend 工具包版本变化而失效。

用户:使用 Ascend NPU 且需要部署 GLM-5/GLM-5.1 的用户将获得详细的部署指引和调优参考,减少摸索时间。
系统:无直接影响(仅文档变更)。
团队:文档维护范围扩展至 GLM 系列,需与软件版本保持同步,增加了后续维护工作。

文档链接可能失效 性能数据可能过时 硬编码路径残留可能性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论