#21811 [Diffusion][NPU] add ring sp performance benchmark page in npu

原始 PR 作者 ChefWu551 合并时间 2026-04-01 23:53 文件变更 2 提交数 1 评论 2 代码增减 +56 / -0

执行摘要

新增 Ascend NPU 上 Ring-SP 性能基准文档，展示扩散模型在 NPU 上的并行加速效果。

根据PR body和关联Issue #20996，本变更旨在解决"Ring-Attention not working on torch_npu 2.8.0.post2"的问题，验证torch_npu 2.10.0环境下NPU能否成功运行Ring-SP（ring-degree=2），并为社区提供可复现的性能基准数据。Issue #20996中明确指出需要评估NPU上Ring-Attention的支持状态和性能差距，本PR通过实际测试文档化验证了该功能在最新环境下的可用性。

该PR为文档类变更，无需深入代码精读。建议NPU用户或对扩散模型性能优化感兴趣的工程师浏览新增文档，关注其提供的基准测试方法和加速效果，可作为NPU环境配置和性能评估的参考。

讨论亮点

Review讨论非常简短，仅有两个批准评论（Makcum888e的"LGTM"和ping1jing2的空评论），未出现技术争议或设计权衡讨论。这表明文档内容清晰、符合预期，无需深入技术讨论即被接受。

实现拆解

实现方案为纯文档新增：1）在docs/platforms/ascend/目录下创建新文档ascend_npu_ring_sp_performance.md，包含基准测试设置、可复现命令、阶段耗时对比表和总结；2）在ascend_npu_support.rst的toctree中添加新文档入口，确保文档结构集成。文档内容基于实际基准测试，详细对比了u1r1（单GPU）与u1r2（双GPU Ring-SP）配置下各阶段（如InputValidation、TextEncoding、Denoising等）的耗时和加速比。

文件	模块	状态	重要度
`docs/platforms/ascend_npu_ring_sp_performance.md`	documentation	added	8.0
`docs/platforms/ascend/ascend_npu_support.rst`	documentation	modified	4.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

技术风险极低：1）纯文档变更，不涉及代码逻辑，无回归风险；2）文档中提及的运行时警告（"Device do not support double dtype now, dtype cast replace with float"）已作为备注记录，不影响功能正确性；3）基准测试结果基于特定环境（torch_npu==2.10.0、特定模型和提示），若环境变化可能导致性能数据偏差，但文档已添加免责声明说明。

影响范围有限但价值明确：1）对用户：为NPU用户提供了Ring-SP性能参考和可复现命令，有助于评估扩散模型在NPU上的并行加速效果；2）对系统：无代码变更，不影响系统行为；3）对团队：补充了NPU文档生态，与近期NPU相关PR（如#20751、#21807）形成协同，强化了NPU平台的支持矩阵。

环境依赖性强

关联 Issue

#20996 [Feature] [NPU] Ring-Attention not working on torch_npu 2.8.0.post2 (Startup OK, request processing fails)

完整报告

执行摘要

一句话：新增Ascend NPU上Ring-SP性能基准文档，展示扩散模型在NPU上的并行加速效果。
推荐动作：该PR为文档类变更，无需深入代码精读。建议NPU用户或对扩散模型性能优化感兴趣的工程师浏览新增文档，关注其提供的基准测试方法和加速效果，可作为NPU环境配置和性能评估的参考。

功能与动机

实现拆解

关键文件：

docs/platforms/ascend_npu_ring_sp_performance.md（模块 documentation）: 新增的核心性能基准文档，详细记录了NPU上Ring-SP的测试设置、命令和结果对比，是PR的主要产出。
docs/platforms/ascend/ascend_npu_support.rst（模块 documentation）: 修改了文档索引文件，将新性能文档集成到Ascend NPU文档目录中，确保文档可访问性。

关键符号：未识别

评论区精华

暂无高价值评论线程

风险与影响

风险：技术风险极低：1）纯文档变更，不涉及代码逻辑，无回归风险；2）文档中提及的运行时警告（"Device do not support double dtype now, dtype cast replace with float"）已作为备注记录，不影响功能正确性；3）基准测试结果基于特定环境（torch_npu==2.10.0、特定模型和提示），若环境变化可能导致性能数据偏差，但文档已添加免责声明说明。
影响：影响范围有限但价值明确：1）对用户：为NPU用户提供了Ring-SP性能参考和可复现命令，有助于评估扩散模型在NPU上的并行加速效果；2）对系统：无代码变更，不影响系统行为；3）对团队：补充了NPU文档生态，与近期NPU相关PR（如#20751、#21807）形成协同，强化了NPU平台的支持矩阵。
风险标记：环境依赖性强

关联脉络

PR #20996 [Feature] [NPU] Ring-Attention not working on torch_npu 2.8.0.post2 (Startup OK, request processing fails): 本PR直接关联的Issue，旨在解决该Issue中提出的NPU上Ring-Attention支持问题，通过文档验证torch_npu 2.10.0下的可用性。
PR #20751 [NPU]Add a full test pipeline on NPU, resolve issues in the NPU test architecture: 同为NPU相关PR，专注于测试流水线，与本PR的文档化性能基准形成互补，共同完善NPU支持。
PR #21807 [NPU] update ascend docs: 近期NPU文档更新PR，更新了Ascend NPU最佳实践和示例，与本PR同属文档类别，扩展了NPU文档覆盖范围。

#21811 [Diffusion][NPU] add ring sp performance benchmark page in npu

执行摘要

新增 Ascend NPU 上 Ring-SP 性能基准文档，展示扩散模型在 NPU 上的并行加速效果。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

完整报告

参与讨论