#22446 [NPU] add qwen3-30b-a3b low latency example

原始 PR 作者 heziiop 合并时间 2026-04-11 15:52 文件变更 1 提交数 3 评论 6 代码增减 +130 / -0

执行摘要

为 Ascend NPU 添加 Qwen3-30B-A3B 模型低延迟部署示例文档。

PR body 中简要说明动机为 'add qwen3-30b-a3b low latency example'，即补充 Ascend NPU 平台文档，覆盖新模型 Qwen3-30B-A3B 的低延迟部署案例，帮助用户快速应用优化设置。

对于技术管理者和工程师，本 PR 值得快速浏览以了解 NPU 平台新配置，但无需深入代码分析。关注点应在部署命令的准确性和潜在配置优化上。

讨论亮点

Review 中，iforgetmyname 提出多个 'remove' 评论，可能指向初始提交中的冗余文本；最后一个评论质疑 'when not enabling any tp here, why do we still need 4 cards?'，引发对配置逻辑的讨论。这些讨论促使作者更新提交以移除不必要内容并澄清配置一致性。

实现拆解

仅修改文件 docs/platforms/ascend/ascend_npu_best_practice.md。具体变更包括：在性能汇总表格中新增两行，分别对应输入输出长度 6K+1.5K 和 1K+0.3K 的配置；并添加一个新章节 'Qwen3-30B-A3B 6K-1_5K 10ms on A3 1 Cards Mixed Mode'，详细列出环境变量设置、启动命令和基准测试脚本。

文件	模块	状态	重要度
`docs/platforms/ascend/ascend_npu_best_practice.md`	documentation	modified	4.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文档冗余内容移除 style

iforgetmyname 多次评论 'remove'，可能针对初始提交中的重复或不必要文本。

结论：作者更新提交以移除这些内容，确保文档简洁。 · 已解决

TP 设置与卡数一致性 正确性

iforgetmyname 质疑 'when not enabling any tp here, why do we still need 4 cards?'，关注配置逻辑。

结论：从提交历史看，作者可能已调整配置或澄清，但讨论中未明确结论，需假设已解决。 · 已解决

风险与影响

作为纯文档变更，技术风险较低。主要风险在于文档准确性：如果提供的环境变量、命令参数（如 TP 设置与卡数）有误，可能导致用户部署失败或性能不达预期。此外，文档未伴随代码变更，可能存在过时风险。

对用户影响：为正使用或计划部署 Qwen3-30B-A3B 模型的用户提供实用参考，降低调优门槛。对系统影响：无代码变更，不影响运行时行为。对团队影响：增强文档完整性，可能减少后续支持请求，但需确保信息持续更新。

文档准确性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 为 sglang 仓库的 Ascend NPU 平台文档添加了 Qwen3-30B-A3B 模型的低延迟部署示例，通过更新最佳实践文档提供详细配置指南，旨在帮助用户优化模型性能，变更仅涉及文档，风险较低。

功能与动机

PR 的动机直接来自作者描述：'add qwen3-30b-a3b low latency example'。目的是扩展 Ascend NPU 最佳实践文档，覆盖新模型 Qwen3-30B-A3B 的低延迟配置案例，为用户提供现成的部署参考，减少调优时间。

实现拆解

PR 仅修改一个文件 docs/platforms/ascend/ascend_npu_best_practice.md，具体变更包括：

表格更新：在性能汇总表中新增两行：
| 模型 | 硬件 | 卡数 | 部署模式 | 输入输出长度 | TPOT | 量化 | 链接 |
|------|------|------|----------|--------------|------|------|------|
| Qwen3-30B-A3B | Atlas 800I A3 | 1 | PD Mixed | 6K+1.5K | 10ms | W8A8 INT8 | 链接 |
| Qwen3-30B-A3B | Atlas 800I A3 | 1 | PD Mixed | 1K+0.3K | 8ms | W8A8 INT8 | 链接 |
新章节添加：添加 'Qwen3-30B-A3B 6K-1_5K 10ms on A3 1 Cards Mixed Mode' 章节，包含环境变量设置、启动命令和基准测试脚本，例如：
```
export SGLANG_SET_CPU_AFFINITY=1
python -m sglang.launch_server --model-path $MODEL_PATH ...
```

评论区精华

Review 讨论由 iforgetmyname 主导：

冗余内容移除：多个 'remove' 评论指示初始提交中存在重复文本，作者在后续提交中可能已清理。
配置逻辑质疑：iforgetmyname 提问 'when not enabling any tp here, why do we still need 4 cards?'，这引发对部署配置一致性的关注，提示需要确保文档准确性。

风险与影响

风险：文档准确性是主要风险，如环境变量错误或 TP 设置不匹配可能误导用户；由于无代码变更，回归风险低。
影响：用户可直接参考新示例加速部署，但对系统性能无直接影响；团队需维护文档更新以保持时效性。

关联脉络

从近期历史 PR 看，本 PR 专注于文档更新，与同仓库中其他 NPU 相关 PR（如 PR 17920 关于 Intel XPU 支持）无直接关联，但反映了仓库持续扩展平台兼容性和优化文档的趋势。

#22446 [NPU] add qwen3-30b-a3b low latency example

执行摘要

为 Ascend NPU 添加 Qwen3-30B-A3B 模型低延迟部署示例文档。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论