Prhub

#22429 [NPU]add Qwen3-32b and Qwen3-8b low latency md

原始 PR 作者 Liwansi 合并时间 2026-04-09 16:18 文件变更 1 提交数 1 评论 4 代码增减 +296 / -0

执行摘要

为 NPU 平台添加 Qwen3-32B 和 Qwen3-8B 模型的低延迟配置文档。

根据 PR body,动机是 '[NPU]add Qwen3-32b and Qwen3-8b low latency md',即添加这两个模型在 NPU 平台上的低延迟文档,以扩展平台支持并指导用户部署优化。

对于技术管理者,此 PR 可快速浏览以了解新增的 NPU 配置选项,无需深入代码分析。对于工程师,如果涉及 NPU 部署或优化,值得参考文档中的具体命令和环境设置,注意 review 中提到的清晰度改进点。

讨论亮点

review 由 gemini-code-assist[bot] 提供,主要关注文档的清晰度和可读性改进,无技术争议。建议包括:在硬件描述中添加空格(如 '2 Cards')、替换占位符 'xxx' 为更描述性的路径(如 '/path/to/your/model')、移除未使用的变量定义(LOCAL_HOST1, LOCAL_HOST2)。这些建议旨在使文档更用户友好,review 被 sglang-npu-bot 批准,但未明确是否所有建议都被采纳。

实现拆解

实现仅修改了 'docs/platforms/ascend/ascend_npu_best_practice.md' 文件,添加了四个新的配置章节:Qwen3-32B 1K-0.3K 12ms on A3 2 Cards Mixed Mode、Qwen3-32B 6K-1.5K 17ms on A3 2 Cards Mixed Mode、Qwen3-8B 1K-0.3K 7ms on A3 1 Cards Mixed Mode、Qwen3-8B 6K-1.5K 9ms on A3 1 Cards Mixed Mode。每个章节包括模型、硬件、部署模式、数据集、输入输出长度、TPOT、详细的 shell 部署命令(含环境变量和启动参数)以及基准测试命令。

文件 模块 状态 重要度
docs/platforms/ascend/ascend_npu_best_practice.md docs/platforms/ascend modified 3.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文档格式改进 style

gemini-code-assist[bot] 建议在硬件描述中添加空格(如 '2 Cards')、替换占位符 'xxx' 为更描述性的路径、移除未使用的变量定义(LOCAL_HOST1, LOCAL_HOST2),以提高文档清晰度。

结论:建议被考虑,PR 被 sglang-npu-bot 批准,但未明确是否所有建议都被采纳。 · addressed

风险与影响

风险较低,因为是纯文档变更。潜在风险包括文档中的命令错误或占位符未正确替换,可能导致用户部署失败;环境变量设置可能因系统差异而需要调整。具体到文件,没有代码逻辑变更,因此无回归、性能或安全风险。

对用户:提供了 Qwen3 模型在 NPU 平台上的新优化配置,便于部署和性能调优,尤其针对低延迟场景。对系统:无直接影响,因为只更新文档。对团队:文档维护更新,增强了 NPU 平台的支持文档覆盖,可能减少用户咨询和支持负担。

文档误导风险 占位符未替换

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论