← 返回仓库详情

#7126 [Iluvatar] Fix cuda graph error for tp > 1 in ernie models

PaddlePaddle/FastDeploy · 作者 wuyujiji · 合并时间 2026-04-01 19:13

分析状态已生成

文件变更 5提交数 1 · 评论 2

代码增减 +74 / -10

Iluvatar bugfix Models

执行摘要

修复 Iluvatar 平台上 ERNIE 模型在 tensor parallel 大于 1 时的 cuda graph 错误。

根据PR body，动机是'修复ernie模型当tp>1时，cuda graph报错'，直接针对Iluvatar平台上的特定错误，确保ERNIE模型在分布式并行环境下能正常使用cuda graph功能。

该PR值得精读以理解Iluvatar平台上的cuda graph处理策略和分布式通信优化。重点关注tensor_model_parallel_all_reduce函数中的平台分支逻辑设计，以及模型运行器中的条件禁用机制，这些是适配异构平台的关键技术点。

讨论亮点

review讨论非常有限，只有一次来自EmmonsCurse的批准评论'LGTM～ /skip-ci coverage'，表示快速批准，没有深入的技术争议或设计权衡讨论。

实现拆解

实现方案分为四个关键部分：1) 在fastdeploy/distributed/communication.py中修改tensor_model_parallel_all_reduce函数，为Iluvatar平台添加特殊路径，使用stream.all_reduce并设置use_calc_stream=True，以避免cuda graph错误；2) 在模型加载器文件default_loader.py和default_loader_v1.py中扩展clean_memory_fragments方法，将内存清理逻辑应用到Iluvatar平台；3) 在fastdeploy/worker/iluvatar_model_runner.py的__init__方法中添加条件判断，对于ERNIE-VL模型在tp>1时禁用cuda graph，并优化日志记录；4) 更新CI测试脚本scripts/run_ci_iluvatar.sh，添加tp=2的测试用例以验证修复。

文件	模块	状态	重要度
`fastdeploy/distributed/communication.py`	Distributed Communication	modified	8.0
`fastdeploy/worker/iluvatar_model_runner.py`	Worker	modified	7.0
`scripts/run_ci_iluvatar.sh`	CI	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

tensor_model_parallel_all_reduce clean_memory_fragments IluvatarModelRunner.__init__

评论区精华

Review Approval other

EmmonsCurse 评论 'LGTM～ /skip-ci coverage'，表示快速批准，没有深入技术讨论。

结论：Review 通过，没有争议。 · 已解决

风险与影响

技术风险包括：1) 修改fastdeploy/distributed/communication.py中的tensor_model_parallel_all_reduce函数引入了平台特定逻辑（Iluvatar分支），可能影响其他平台的兼容性或性能，例如如果其他平台误用该逻辑；2) 在iluvatar_model_runner.py中禁用cuda graph可能导致ERNIE-VL模型在tp>1时性能下降；3) codecov评论指出patch coverage为42.86%（8行缺失覆盖），表明测试覆盖不足，可能有未覆盖的边缘情况，如其他模型类型或配置组合。

影响范围主要限于使用Iluvatar平台运行ERNIE模型的用户，特别是当配置tensor parallel大于1时。修复后，这些场景将不再出现cuda graph错误，提升了系统稳定性和用户体验。对团队的影响是增加了Iluvatar特定逻辑的维护负担，需确保未来变更不破坏其他平台功能。

平台特定变更测试覆盖率不足性能潜在影响

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复Iluvatar平台上ERNIE模型在tensor parallel大于1时的cuda graph错误。
推荐动作：该PR值得精读以理解Iluvatar平台上的cuda graph处理策略和分布式通信优化。重点关注tensor_model_parallel_all_reduce函数中的平台分支逻辑设计，以及模型运行器中的条件禁用机制，这些是适配异构平台的关键技术点。

功能与动机

根据PR body，动机是'修复ernie模型当tp>1时，cuda graph报错'，直接针对Iluvatar平台上的特定错误，确保ERNIE模型在分布式并行环境下能正常使用cuda graph功能。

实现拆解

关键文件：

fastdeploy/distributed/communication.py（模块 Distributed Communication）: 修改了核心通信函数tensor_model_parallel_all_reduce，为Iluvatar平台添加特殊处理以避免cuda graph错误，是修复的关键部分。
fastdeploy/worker/iluvatar_model_runner.py（模块 Worker）: 添加了条件逻辑以在ERNIE-VL模型tp>1时禁用cuda graph，并优化日志记录，直接影响模型运行行为。
scripts/run_ci_iluvatar.sh（模块 CI）: 扩展了CI测试脚本，添加tp=2的测试用例，确保修复被验证，增强了测试覆盖。

关键符号：tensor_model_parallel_all_reduce, clean_memory_fragments, IluvatarModelRunner.init

评论区精华

review讨论非常有限，只有一次来自EmmonsCurse的批准评论'LGTM～ /skip-ci coverage'，表示快速批准，没有深入的技术争议或设计权衡讨论。

Review Approval (other): Review通过，没有争议。

风险与影响

风险：技术风险包括：1) 修改fastdeploy/distributed/communication.py中的tensor_model_parallel_all_reduce函数引入了平台特定逻辑（Iluvatar分支），可能影响其他平台的兼容性或性能，例如如果其他平台误用该逻辑；2) 在iluvatar_model_runner.py中禁用cuda graph可能导致ERNIE-VL模型在tp>1时性能下降；3) codecov评论指出patch coverage为42.86%（8行缺失覆盖），表明测试覆盖不足，可能有未覆盖的边缘情况，如其他模型类型或配置组合。
影响：影响范围主要限于使用Iluvatar平台运行ERNIE模型的用户，特别是当配置tensor parallel大于1时。修复后，这些场景将不再出现cuda graph错误，提升了系统稳定性和用户体验。对团队的影响是增加了Iluvatar特定逻辑的维护负担，需确保未来变更不破坏其他平台功能。
风险标记：平台特定变更, 测试覆盖率不足, 性能潜在影响

关联脉络

暂无明显关联 PR

支持 Prhub ♥

#7126 [Iluvatar] Fix cuda graph error for tp > 1 in ernie models

执行摘要

修复 Iluvatar 平台上 ERNIE 模型在 tensor parallel 大于 1 时的 cuda graph 错误。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论