#25594 [NPU] Add Qwen3.5-397B-A17B best practice doc

原始 PR 作者 silencejade 合并时间 2026-05-21 10:02 文件变更 1 提交数 3 评论 5 代码增减 +195 / -19

执行摘要

新增 Qwen3.5-397B-A17B 在 Ascend NPU 上的最佳实践文档

PR body 指出：'Add qwen3.5-397B best practice doc for Ascend NPU'，旨在为 NPU 用户提供该模型的部署参考。

阅读建议：对于在 Ascend NPU 上部署大模型的用户，可参考此文档获取已验证的配置参数；对于贡献者，应关注 review 中提出的名称一致性问题，避免类似疏忽。

讨论亮点

Review 中 gemini-code-assist[bot] 指出文档中模型名称不一致：表格和章节标题使用简化的 'Qwen3-397B' 而模型实际名称为 'Qwen3.5-397B-A17B'，可能导致导航锚点失效；同时发现命令中包含尾随空格。这些建议均未得到答复即被合并。

实现拆解

修改性能总表：在低延迟和高吞吐量表中分别插入 Qwen3.5-397B-A17B 的行，包含硬件、卡数、部署模式、数据集、TPOT、量化方式和配置链接。
新增详细配置章节：在文档末尾添加两个新的最优配置节，分别对应低延迟（22ms）和高吞吐量（50ms）场景，描述硬件、卡数、数据集和启动命令参数。
修复风格问题：根据 review 意见修正模型名称一致性（使用完整名称代替简写）并移除尾随空格。注意：最终合并版本似乎未完全采纳 review 建议。

文件	模块	状态	重要度
`docs/platforms/ascend/ascend_npu_best_practice.md`	NPU 文档	modified	4.17

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

模型名称不一致 documentation

gemini-code-assist[bot] 指出表格和章节标题使用简化名 'Qwen3-397B' 而非全称 'Qwen3.5-397B-A17B'，且锚点未全小写。

结论：PR 被合并，评论未回复，但作者在后续 commit 中可能未修正（从 diff 看最终版本可能仍不一致）。 · closed

尾随空格 style

gemini-code-assist[bot] 指出命令参数行存在尾随空格，应移除。

结论：同上，未明确修复即合并。 · closed

风险与影响

低风险。文档变更不涉及代码，但模型名称不一致可能误导用户，影响文档导航；尾随空格不影响功能但可能违背代码风格规范。

影响范围限于 Ascend NPU 平台的用户，特别是使用 Qwen3.5-397B-A17B 模型的部署场景。新增的配置方案可帮助他们快速复现最佳性能，缩短调优时间。团队方面，文档更新无需代码维护。

文档名称不一致可能误导用户

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 为 Ascend NPU 平台新增 Qwen3.5-397B-A17B 模型的最佳实践文档，在性能表格中添加该模型条目，并提供了低延迟（22ms）和高吞吐量（50ms）两种场景的详细配置方案。文档现已合并，但存在模型名称不一致的 review 意见未被处理。

功能与动机

原 PR body 说明：'Add qwen3.5-397B best practice doc for Ascend NPU'。目的是为 NPU 用户提供已验证的大模型部署参数，降低调优成本。

实现拆解

修改性能总表：在'Low Latency'和'High Throughput'两个表格中分别插入 Qwen3.5-397B-A17B 的行，记录硬件（Atlas 800I A3）、卡数（8）、部署模式（PD Mixed）、数据集规模、TPOT 延迟、量化方式（W4A8）及指向详细配置的锚点链接。
新增配置章节：在文档末尾追加两个独立章节，标题如 Qwen3-397B 3_5K-1_5K 22ms on A3 8 Cards Mixed Mode（实际使用了简化名），包含模型全称、硬件清单、部署命令参数（如 --mm-attention-backend ascend_attn --dtype bfloat16 等）。
格式修正：在后续 commit 中修复了 lint 问题，但未处理 review 提出的名称一致性与尾随空格问题。

本次变更为纯文档变更，未涉及程序源码。以下为文档中新增的性能表格行（Markdown 格式）：

| Qwen3.5-397B-A17B | Atlas 800I A3 | 8 | PD Mixed | 3.5K+1.5K | 22ms | W4A8 | [Optimal Configuration](#qwen3-397b-3_5k-1_5k-22ms-on-a3-8-cards-mixed-mode) |

但请注意，锚点链接中的模型名称为简化写法，与全称 Qwen3.5-397B-A17B 不一致。

评论区精华

gemini-code-assist[bot] 指出表格和章节标题使用了简化模型名 Qwen3-397B，而非正式名称 Qwen3.5-397B-A17B，建议统一使用全称且锚点全小写。
gemini-code-assist[bot] 还指出 shell 命令参数行存在尾随空格，违反代码风格规范。
作者未在讨论中回复，PR 即被 sglang-npu-bot 批准合并。

风险与影响

文档准确性：模型名称不一致可能使用户混淆，锚点链接可能因大小写写错而失效。
可维护性：尾随空格虽不影响功能，但不符合项目 markdown 规范。
正面影响：提供了经过实测的配置参数，可大幅降低 NPU 用户部署 397B 大模型的尝试成本。

关联脉络

本 PR 与之前的 PR #23925（NPU 上为 Qwen3.5 引入融合 Triton 内核）属同一功能线：前者为模型提供运行时支持，此文档则帮助用户快速应用该支持，形成'实现 + 部署指南'的完整闭环。

#25594 [NPU] Add Qwen3.5-397B-A17B best practice doc

执行摘要

新增 Qwen3.5-397B-A17B 在 Ascend NPU 上的最佳实践文档

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论