#25830 [NPU] Docs op performance optimize

原始 PR 作者 McZyWu 合并时间 2026-05-22 09:20 文件变更 2 提交数 29 评论 19 代码增减 +116 / -2

执行摘要

新增 NPU 算子性能优化文档

开发者需要一份系统性的算子性能优化指导，以便在 Ascend NPU 上高效地分析和提升 Triton 算子的性能。PR 正文说明这是 'a guidance about how to obtain and analyze profiling data, and thus enhance performance on the operator level'。

值得 NPU 开发者和性能调试人员精读，特别是 msProf 输出指标解读部分，可快速定位算子瓶颈。

讨论亮点

gemini-code-assist[bot] 指出了多处格式与语法问题，包括代码块使用三单引号而非三反引号、标题包含下划线、硬件层级 'l0' 应大写为 'L0'、以及存在不应出现的内部开发者备注。作者逐一确认并应用了所有建议，最终文档质量得到提升。

实现拆解

创建文档页面：在 docs_new/docs/hardware-platforms/ascend-npus/ 下新建 ascend_npu_operator_performance_optimizing.mdx，内容涵盖性能数据获取（msProf 使用）、输出指标解读（Duration、Block Dim、aicore_time 等）、瓶颈定位方法以及优化策略（如充分利用 UB、使用双缓冲等）。
更新导航配置：修改 docs_new/docs.json，将新页面加入 Ascend NPU 子导航列表中，同时将 FAQ 页面调整到 profiling 之前，使文档顺序更合理。
质量修复：根据 review 反馈（gemini-code-assist[bot]），修复了代码块语法（单引号改为反引号）、标题格式（去掉下划线改用空格）、拼写错误（l0 → L0）、标点（中文句号改英文）及语法问题，并删除了内部开发备注。

文件	模块	状态	重要度
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_operator_performance_optimizing.mdx`	NPU 文档	added	4.62
`docs_new/docs.json`	导航配置	modified	2.74

关键源码片段

docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_operator_performance_optimizing.mdx documentation

核心新增文档，提供 Ascend NPU 算子性能优化的完整指导

# 使用 msProf 采集指定算子的性能数据（替换 kernel-name 和脚本）
msprof op --kernel-name=DequantSwigluQuant python3 test_dequant_swiglu.py

# 输出包含以下关键指标：
# - Duration: 算子执行耗时（us）
# - Block Dim: 任务分块数，对应使用的核数
# - Input/Output Shapes: 输入输出张量形状
# - aicore_time / aiv_time: AI Core 和 Vector Core 的执行时间
# - aic_mac_ratio / aiv_vec_ratio: MAC/ 向量单元利用率

评论区精华

文档格式与语法问题修复 style

gemini-code-assist[bot] 指出文档中存在多处格式问题：代码块使用了三单引号而非标准三反引号、标题包含下划线、硬件层级 'l0' 应大写为 'L0'、出现内部开发者备注、以及语法错误（如 'parallelizes' 应改为 'to parallelize'）。

结论：作者逐一回应并应用了所有建议，最终文档符合规范。 · 已解决

风险与影响

纯文档变更，无任何代码或配置风险。但需确保导航链接正确，避免 404 错误。经 review 确认无此问题。

对 Ascend NPU 用户提供清晰的操作指南，降低性能优化入门门槛；对团队文档体系进行了补充，扩展了 NPU 专区内容。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：新增 NPU 算子性能优化文档
推荐动作：值得 NPU 开发者和性能调试人员精读，特别是 msProf 输出指标解读部分，可快速定位算子瓶颈。

功能与动机

实现拆解

创建文档页面：在 docs_new/docs/hardware-platforms/ascend-npus/ 下新建 ascend_npu_operator_performance_optimizing.mdx，内容涵盖性能数据获取（msProf 使用）、输出指标解读（Duration、Block Dim、aicore_time 等）、瓶颈定位方法以及优化策略（如充分利用 UB、使用双缓冲等）。
更新导航配置：修改 docs_new/docs.json，将新页面加入 Ascend NPU 子导航列表中，同时将 FAQ 页面调整到 profiling 之前，使文档顺序更合理。
质量修复：根据 review 反馈（gemini-code-assist[bot]），修复了代码块语法（单引号改为反引号）、标题格式（去掉下划线改用空格）、拼写错误（l0 → L0）、标点（中文句号改英文）及语法问题，并删除了内部开发备注。

关键文件：

docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_operator_performance_optimizing.mdx（模块 NPU文档；类别 docs；类型 documentation）: 核心新增文档，提供 Ascend NPU 算子性能优化的完整指导
docs_new/docs.json（模块导航配置；类别 config；类型 configuration）: 导航配置文件，将新文档页面加入 Ascend NPU 分组导航

关键符号：未识别

关键源码片段

`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_operator_performance_optimizing.mdx`

核心新增文档，提供 Ascend NPU 算子性能优化的完整指导

# 使用 msProf 采集指定算子的性能数据（替换 kernel-name 和脚本）
msprof op --kernel-name=DequantSwigluQuant python3 test_dequant_swiglu.py

# 输出包含以下关键指标：
# - Duration: 算子执行耗时（us）
# - Block Dim: 任务分块数，对应使用的核数
# - Input/Output Shapes: 输入输出张量形状
# - aicore_time / aiv_time: AI Core 和 Vector Core 的执行时间
# - aic_mac_ratio / aiv_vec_ratio: MAC/ 向量单元利用率

评论区精华

文档格式与语法问题修复 (style): 作者逐一回应并应用了所有建议，最终文档符合规范。

风险与影响

风险：纯文档变更，无任何代码或配置风险。但需确保导航链接正确，避免 404 错误。经 review 确认无此问题。
影响：对 Ascend NPU 用户提供清晰的操作指南，降低性能优化入门门槛；对团队文档体系进行了补充，扩展了 NPU 专区内容。
风险标记：暂无

关联脉络

PR #25995 docs: delete deprecated args from npu supported features: 同为 NPU 文档改进，共同丰富 NPU 专区内容

#25830 [NPU] Docs op performance optimize

执行摘要

新增 NPU 算子性能优化文档

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论