#21468 [NPU] Update DeepSeek-V3.2 model deployment instructions in documentation

原始 PR 作者 MichelleWu351 合并时间 2026-03-30 15:51 文件变更 1 提交数 4 评论 6 代码增减 +96 / -148

执行摘要

更新 DeepSeek-V3.2 模型在 Ascend NPU 上的部署最佳实践文档。

PR body 中说明：'Updates the documentation for deploying the DeepSeek-V3.2 model on Ascend NPU'，旨在提供最新的最佳实践脚本和配置。

建议团队工程师在部署 DeepSeek-V3.2 模型到 Ascend NPU 时参考此文档更新，关注配置参数变化；但 PR 不涉及代码逻辑，无需深度技术分析。

讨论亮点

review 中讨论了两个关键点：

1) gemini-code-assist[bot] 指出 HCCL_BUFFSIZE 变量冗余设置，作者 MichelleWu351 回复已移除；
2) 关于占位符 P_IP1 和 D_IP1 未定义的问题，作者解释这些是路由器脚本中用户需手动填充的部分，与预填充和解码脚本不同。讨论围绕脚本清晰度和正确性。

实现拆解

修改文档文件 docs/platforms/ascend/ascend_npu_best_practice.md，主要改动包括：

1) 配置表中将 DeepSeek-V3.2-Exp 更新为 DeepSeek-V3.2，输入输出长度从 64K+3K 调整为 128K+1K，TPOT 从 30ms 改为 20ms；
2) 部署脚本部分重写，分离预填充和解码实例的 IP 数组，移除旧环境变量如 ASCEND_HOME_PATH 和 HCCL_BUFFSIZE，并更新 sglang.launch_server 参数。

文件	模块	状态	重要度
`docs/platforms/ascend/ascend_npu_best_practice.md`	docs	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

HCCL_BUFFSIZE 变量冗余 正确性

gemini-code-assist[bot] 指出变量被覆盖，导致冗余。

结论：作者已移除冗余代码。 · 已解决

P_IP1 和 D_IP1 占位符未定义 设计

gemini-code-assist[bot] 建议使用数组元素，作者解释为用户手动填充部分。

结论：作者确认占位符设计意图。 · 已解决

风险与影响

风险较低，因为变更仅涉及文档。主要风险包括：文档中脚本错误可能导致用户部署失败，例如占位符 P_IP1 和 D_IP1 未明确定义；环境变量调整可能与其他配置冲突。无代码变更，无直接影响系统性能或安全。

影响 Ascend NPU 用户部署 DeepSeek-V3.2 模型，提供了更新的最佳实践配置。影响范围限于文档读者，无系统级影响；团队需确保文档与实际代码同步。

脚本占位符未定义环境变量冲突风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此 PR 更新了 DeepSeek-V3.2 模型在 Ascend NPU 上的部署最佳实践文档，基于新性能测试调整了配置参数和脚本，影响仅限于文档用户，无代码变更风险。

功能与动机

更新动机源于主分支启用了 atten-cp-size 函数并重新调优了 DeepSeek-V3.2 模型在长序列场景下的性能，如 PR body 所述：'Updates the documentation for deploying the DeepSeek-V3.2 model on Ascend NPU'，旨在提供最新的部署指南。

实现拆解

修改文件为 docs/platforms/ascend/ascend_npu_best_practice.md，具体改动包括：

配置表更新：将 DeepSeek-V3.2-Exp 改为 DeepSeek-V3.2，输入输出长度从 64K+3K 调整为 128K+1K，TPOT 时间从 30ms 缩短到 20ms。
部署脚本优化：
- 分离预填充和解码实例的 IP 数组（P_IP 和 D_IP）。
- 移除旧环境变量，如 ASCEND_HOME_PATH 和 HCCL_BUFFSIZE。
- 更新 sglang.launch_server 参数以匹配新配置。

评论区精华

review 讨论主要关注脚本正确性和设计意图：

gemini-code-assist[bot] 指出：'HCCL_BUFFSIZE 变量被覆盖，导致冗余。' MichelleWu351 回复：'already reduce redundant code. done'，解决了此问题。
gemini-code-assist[bot] 建议：'占位符 P_IP1 和 D_IP1 未定义，应使用数组元素。' MichelleWu351 解释：'P_IP1 and D_IP1 should be filled in by the user manually. And this part of code is a router script, not the rest of prefill or decode script.'，澄清了设计选择。

风险与影响

风险：

文档脚本中的占位符未明确定义，可能导致用户部署错误。
环境变量调整可能与其他 NPU 配置冲突，需用户确认兼容性。

影响：

直接影响 Ascend NPU 用户部署 DeepSeek-V3.2 模型的效率和正确性。
无系统级影响，仅为文档更新。

关联脉络

与历史 PR 的关联：

PR #18461：'[Intel GPU] Enable DeepSeek R1 inference on XPU'，同样是 DeepSeek 模型的部署优化，但平台不同（XPU vs NPU），体现了跨平台模型支持的一致性更新趋势。
近期文档 PR 如 #21659 也更新了贡献指南，显示团队对文档维护的重视。

#21468 [NPU] Update DeepSeek-V3.2 model deployment instructions in documentation

执行摘要

更新 DeepSeek-V3.2 模型在 Ascend NPU 上的部署最佳实践文档。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论