#26069 [NPU]Ascend NPU Performance Profiling Guide and Ascend NPU Operator Development Guide

原始 PR 作者 longxin9715 合并时间 2026-05-23 10:50 文件变更 2 提交数 2 评论 7 代码增减 +92 / -1

执行摘要

新增 Ascend NPU 性能分析与算子开发指南

为 Ascend NPU 平台提供系统化的性能分析和算子开发文档，帮助用户在 NPU 上实现 SGLang 的部署与优化。PR body 提到“add Ascend NPU Performance Profiling Guide and Ascend NPU Operator Development Guide”。

值得查阅，特别是对 Ascend NPU 开发感兴趣的用户。文档示例中的脚本稍显粗糙，建议参考 review 意见自行验证。

讨论亮点

gemini-code-assist[bot] 提出了 7 条中等优先级评论，主要针对多节点部署脚本的缺陷和文档格式问题：

HCCL_SOCKET_IFNAME 和 GLOO_SOCKET_IFNAME 不应设为 lo，应指定真实网络接口。
your port 占位符建议替换为默认端口 20000。
IP 检测逻辑脆弱，建议使用 hostname -I 全列表匹配。
--host 127.0.0.1 应改为 0.0.0.0 以支持跨节点访问。
缺少空格的行延续符需要修复。
建议用 conda config --remove channels defaults 替代手动编辑 .condarc。
所有评论均未得到回复或解决，但 sglang-npu-bot 给出了审批。

实现拆解

新增性能分析指南：在 ascend_npu.mdx 中添加 Ascend NPU Performance Profiling Guide，介绍如何使用 CANN Profiling 工具进行性能分析，包括 profiling 配置、数据采集与可视化。
新增算子开发指南：在同一文件中加入 Ascend NPU Operator Development Guide，指导用户如何为 Ascend NPU 编写自定义算子，包括开发环境搭建、算子注册和编译流程。
完善快速开始文档：更新 ascend_npu.mdx 中的 Python 版本说明，强调仅支持 Python 3.11，并补充使用清华镜像源解决 Anaconda 仓库限制的步骤。
多节点部署示例：在 ascend_npu_qwen3_5_examples.mdx 中新增 Multi-node Deployment 章节，提供 Qwen3.5-35B-A3B 模型的双节点部署脚本，包含环境变量设置和启动命令。
格式与结构修复：根据 review 意见修正了 Anaconda 章节的标题格式（添加 ####），使 markdown 语法正确。

文件	模块	状态	重要度
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu.mdx`	文档	modified	4.22
`docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_qwen3_5_examples.mdx`	文档	modified	3.98

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

多节点部署脚本网络接口配置 正确性

gemini-code-assist[bot] 指出将 HCCL_SOCKET_IFNAME 和 GLOO_SOCKET_IFNAME 设为 lo 是错误的，应设为实际网络接口。

结论：未解决，但脚本作为示例，用户需自行调整。 · unresolved

端口占位符与默认值 usability

gemini-code-assist[bot] 建议将 'your port' 替换为默认端口 20000。

结论：未采纳，但 PR 已合并。 · unresolved

Conda 镜像配置方式 best-practice

gemini-code-assist[bot] 建议使用 conda config 命令移除默认通道，而非手动编辑 .condarc。

结论：未解决，PR 最终版本仍使用手动编辑方式。 · unresolved

风险与影响

无技术风险，本 PR 仅涉及文档变更，不包含任何代码修改。多节点部署示例中的脚本问题（如网络接口配置错误）可能误导用户，但作为文档示例不会直接影响系统。

影响范围局限在 Ascend NPU 平台的使用者，提供更完善的指南可降低开发门槛。对现有系统无功能影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 为 SGLang 的 Ascend NPU 平台新增性能分析指南和算子开发指南，同时补充多节点部署示例和 Conda 镜像配置说明。纯文档变更，无代码修改，已于 2025-05-26 合并。

功能与动机

为 Ascend NPU 开发者提供系统化的性能分析和算子开发文档，帮助用户在 NPU 上实现 SGLang 的部署与性能优化。具体包括：

如何使用 CANN Profiling 工具进行基准测试和性能分析。
如何编写并注册自定义算子。
多节点部署 Qwen3.5 模型的操作指南。
解决 Anaconda 仓库限制的镜像配置方案。

实现拆解

1. 新增性能分析与算子开发文档

在 ascend_npu.mdx 中新增两个标题节，内容涵盖：

Performance Profiling Guide：介绍 CANN Profiling 的配置、数据采集、结果解读。
Operator Development Guide：说明自定义算子的开发流程、环境搭建与注册方法。

2. 完善快速开始文档

强调 Python 3.11 的唯一支持性（加粗），并补充 Anaconda 镜像配置示例，包括添加清华源和清除默认源的操作。

3. 多节点部署示例

在 ascend_npu_qwen3_5_examples.mdx 中新增 Multi-node Deployment 章节，提供 Qwen3.5-35B-A3B 模型的双节点启动脚本，包含环境变量设置（SGLANG_ENABLE_SPEC_V2, SGLANG_NPU_USE_MULTI_STREAM, HCCL_BUFFSIZE 等）和 launch_server 命令。

4. 格式修复

根据 review 意见，将 Anaconda 限制说明的标题改为 markdown 四级标题格式。

无涉及代码变更。

评论区精华

gemini-code-assist[bot]: (medium) 将 HCCL_SOCKET_IFNAME 和 GLOO_SOCKET_IFNAME 设为 lo 对于多节点部署是错误的，应设为实际网络接口（如 eth0）。

gemini-code-assist[bot]: (medium) your port 占位符建议替换为默认端口 20000，使示例即开即用。

gemini-code-assist[bot]: (medium) IP 检测逻辑仅检查前两个 IP，若目标 IP 不在前两个则脚本失败，建议使用 hostname -I 完整列表匹配。

所有 review 评论均未得到回复或修改，但 sglang-npu-bot 给出了审批。

风险与影响

技术风险：无。仅文档变更，不影响运行时代码。
用户影响：提升 NPU 开发者在 SGLang 上的上手体验和调优能力。
系统影响：无。

关联脉络

无直接关联的 PR。属于单次文档补充，无功能演进依赖。

#26069 [NPU]Ascend NPU Performance Profiling Guide and Ascend NPU Operator Development Guide

执行摘要

新增 Ascend NPU 性能分析与算子开发指南

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论