Prhub

#22975 [NPU] [DOC] Update npu best practice docs to match latest code

原始 PR 作者 amote-i 合并时间 2026-04-16 20:45 文件变更 1 提交数 24 评论 5 代码增减 +302 / -138

执行摘要

更新 Ascend NPU 最佳实践文档,同步最新配置和性能数据。

根据PR body描述,动机是“Update npu best practice docs to match latest code”,即更新NPU最佳实践文档以匹配最新代码,确保文档准确性。

建议NPU平台用户和开发者关注此文档更新,特别是配置参数和性能指标的变化。对于工程团队,可注意review中提到的标准化问题,考虑在未来统一环境变量命名和移除已弃用标志,以提升文档一致性。

讨论亮点

review中主要讨论点包括:

  • 已弃用标志:gemini-code-assist[bot] 指出 --prefill-round-robin-balance 标志已弃用,建议从文档中移除,但作者未回应此建议,标志仍保留。
  • 环境变量名拼写:gemini-code-assist[bot] 建议将 DP_ROUND_ROBIN 改为 SGLANG_DP_ROUND_ROBIN 以保持一致性,作者回复“Consistent with the actual case”,未作修改。
  • 冗余配置参数:gemini-code-assist[bot] 建议移除冗余的 --speculative-draft-model-quantization unquant 参数,作者同样回复“Consistent with the actual case”,未作修改。
    结论:作者坚持文档与实际代码使用情况一致,未完全采纳review中的标准化建议,可能存在文档与代码约定不一致的风险。

实现拆解

  1. 更新现有配置:修改 docs/platforms/ascend/ascend_npu_best_practice.md 文件中多个模型的性能指标和配置参数,例如将DeepSeek-V3.2的延迟从20ms更新为26ms,调整Qwen3-32B的延迟从12ms改为6ms等。
  2. 添加新模型配置:为Qwen3-14B等新模型添加完整的配置章节,包括环境变量和启动命令。
  3. 修正review反馈的问题:根据review评论,调整了环境变量名(如 DP_ROUND_ROBIN 未改为 SGLANG_DP_ROUND_ROBIN,以保持与实际使用一致)和移除冗余参数(如 --speculative-draft-model-quantization unquant),但未采纳关于已弃用标志 --prefill-round-robin-balance 的移除建议。
  4. 无测试或代码配套改动:本次变更仅涉及文档,没有源码、测试或配置文件的联动修改。
文件 模块 状态 重要度
docs/platforms/ascend/ascend_npu_best_practice.md 平台文档 modified 4.23

关键源码片段

docs/platforms/ascend/ascend_npu_best_practice.md documentation

唯一变更文件,包含 NPU 最佳实践的全部配置和性能数据更新,是用户部署的关键参考文档。

以下片段展示了文档中一个典型的环境变量配置块,反映了本次更新中的参数调整:

# 环境变量设置示例(用于 Qwen3-32B 模型)
export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1 # 启用重叠计划和流式处理
export SGLANG_ENABLE_SPEC_V2=1 # 启用推测解码 v2
export HCCL_BUFFSIZE=650 # 调整 HCCL 缓冲区大小以优化通信
export SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=16 # 增加每个 rank 的最大分发 token 数,提升吞吐
# 注意:DP_ROUND_ROBIN 环境变量在此处使用,但 review 建议改为 SGLANG_DP_ROUND_ROBIN 以保持项目一致性
export DP_ROUND_ROBIN=1 # 启用 DP 轮询负载均衡,根据实际代码使用保留此命名

评论区精华

已弃用标志 --prefill-round-robin-balance 的处理 设计

gemini-code-assist[bot] 指出该标志已弃用,建议从文档中移除以避免混淆。

结论:作者未回应或采纳此建议,标志仍保留在文档中。 · 未解决

环境变量名不一致和冗余参数 正确性

gemini-code-assist[bot] 指出 DP_ROUND_ROBIN 应改为 SGLANG_DP_ROUND_ROBIN,并建议移除冗余的 --speculative-draft-model-quantization unquant 参数以保持文档一致性。

结论:作者回复“Consistent with the actual case”,未作修改,坚持文档与实际使用情况一致。 · 已回复

风险与影响

风险较低,但存在以下潜在问题:

  • 配置过时风险:文档中仍包含已弃用标志(如 --prefill-round-robin-balance),可能导致用户混淆或错误配置。
  • 不一致风险:环境变量命名(如 DP_ROUND_ROBIN)与项目其他部分不统一,可能影响用户理解和使用。
  • 准确性风险:性能数据和配置参数基于最新代码更新,但若未来代码变更未同步文档,可能导致文档落后。

影响范围主要针对使用Ascend NPU平台的用户和开发者:

  • 用户影响:正面影响,确保用户能基于最新配置获得最佳性能,减少部署错误。
  • 系统影响:无直接影响,不涉及代码逻辑变更。
  • 团队影响:需确保文档持续与代码同步,避免类似不一致问题积累。
配置过时 文档不一致

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论