Prhub

#25594 [NPU] Add Qwen3.5-397B-A17B best practice doc

原始 PR 作者 silencejade 合并时间 2026-05-21 10:02 文件变更 1 提交数 3 评论 5 代码增减 +195 / -19

执行摘要

新增 Qwen3.5-397B-A17B 在 Ascend NPU 上的最佳实践文档

PR body 指出:'Add qwen3.5-397B best practice doc for Ascend NPU',旨在为 NPU 用户提供该模型的部署参考。

阅读建议:对于在 Ascend NPU 上部署大模型的用户,可参考此文档获取已验证的配置参数;对于贡献者,应关注 review 中提出的名称一致性问题,避免类似疏忽。

讨论亮点

Review 中 gemini-code-assist[bot] 指出文档中模型名称不一致:表格和章节标题使用简化的 'Qwen3-397B' 而模型实际名称为 'Qwen3.5-397B-A17B',可能导致导航锚点失效;同时发现命令中包含尾随空格。这些建议均未得到答复即被合并。

实现拆解

  1. 修改性能总表:在低延迟和高吞吐量表中分别插入 Qwen3.5-397B-A17B 的行,包含硬件、卡数、部署模式、数据集、TPOT、量化方式和配置链接。
  2. 新增详细配置章节:在文档末尾添加两个新的最优配置节,分别对应低延迟(22ms)和高吞吐量(50ms)场景,描述硬件、卡数、数据集和启动命令参数。
  3. 修复风格问题:根据 review 意见修正模型名称一致性(使用完整名称代替简写)并移除尾随空格。注意:最终合并版本似乎未完全采纳 review 建议。
文件 模块 状态 重要度
docs/platforms/ascend/ascend_npu_best_practice.md NPU 文档 modified 4.17

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

模型名称不一致 documentation

gemini-code-assist[bot] 指出表格和章节标题使用简化名 'Qwen3-397B' 而非全称 'Qwen3.5-397B-A17B',且锚点未全小写。

结论:PR 被合并,评论未回复,但作者在后续 commit 中可能未修正(从 diff 看最终版本可能仍不一致)。 · closed

尾随空格 style

gemini-code-assist[bot] 指出命令参数行存在尾随空格,应移除。

结论:同上,未明确修复即合并。 · closed

风险与影响

低风险。文档变更不涉及代码,但模型名称不一致可能误导用户,影响文档导航;尾随空格不影响功能但可能违背代码风格规范。

影响范围限于 Ascend NPU 平台的用户,特别是使用 Qwen3.5-397B-A17B 模型的部署场景。新增的配置方案可帮助他们快速复现最佳性能,缩短调优时间。团队方面,文档更新无需代码维护。

文档名称不一致 可能误导用户

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论