Prhub

#7186 [CI] Use GPU-Build-RL runner for _build_linux_rl.yml

PaddlePaddle/FastDeploy · 作者 EmmonsCurse · 合并时间 2026-04-03 20:24

分析状态 已生成
文件变更 2提交数 1 · 评论 9
代码增减 +3 / -3
CI infra RL

执行摘要

将 RL 构建工作流 runner 从 GPU-Build 改为 GPU-Build-RL,并更新基础镜像和 Paddle whl URL。

根据PR body中的描述,当前runner配置与RL构建任务的GPU需求不匹配,可能导致资源错配或执行问题。具体表述为:"Current runner configuration does not match the GPU requirements of RL build tasks, which may lead to resource mismatch or execution issues."

该PR值得CI维护者精读,以理解RL构建环境的资源分配优化。关注点包括:runner切换的合理性、基础镜像和Paddle whl URL更新的兼容性验证,以及review中提及的问题是否已妥善解决。对于其他工程师,可简要了解CI配置的演进。

讨论亮点

review讨论中,fastdeploy-bot指出PR描述与实际变更不符,并报告了多个关键问题:

  • 分支名拼写错误:在ci_hpu.yml、ci_iluvatar.yml、ci_pu.yml和ci_metax.yml中,分支名被错误地从develop改为devel或deve,这会导致CI流程失效。
  • CI流程注释问题:在pr_build_and_test.yml中,核心CI步骤被注释掉,可能破坏CI保护机制。
    这些讨论强调了CI配置变更的严谨性和对核心流程的影响,最终在提交前被修正(基于最终文件列表仅显示两个文件变更,推测问题已解决)。

实现拆解

实现方案主要涉及两个CI配置文件的修改:

  1. 在.github/workflows/_build_linux_rl.yml中,将runs-on从[ self-hosted, GPU-Build]改为[ self-hosted, GPU-Build-RL],并更新基础镜像和Paddle whl URL。
  2. 在.github/workflows/ce_job.yml中,更新PADDLE_WHL_URL以指向新的构建流水线。
文件 模块 状态 重要度
.github/workflows/_build_linux_rl.yml CI/CD modified 8.0
.github/workflows/ce_job.yml CI/CD modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

CI 配置错误与修复 正确性

fastdeploy-bot 在 review 中指出 PR 描述与实际变更不符,并报告了多个分支名拼写错误和 CI 流程注释问题,可能导致 CI 失效。

结论:基于最终文件列表仅显示两个文件变更,推测问题在提交前被修正,但具体修复过程未在提供材料中体现。 · 已解决

风险与影响

技术风险包括:

  1. 资源分配风险:如果GPU-Build-RL runner配置不当,可能导致RL构建任务资源不足或性能下降。
  2. 依赖更新风险:基础镜像和Paddle whl URL的更新可能引入兼容性问题,影响构建稳定性。
  3. CI流程风险:review中提到的分支名拼写错误和CI步骤注释问题,如果未修复,将导致相关CI流程完全失效,破坏代码质量保障。

影响范围主要限于CI/CD流水线:

  1. 对用户:无直接影响,属于内部基础设施变更。
  2. 对系统:优化RL构建任务的资源分配,可能提升构建效率和稳定性;但依赖更新需确保向后兼容。
  3. 对团队:需要确保所有开发者了解新的runner配置,并监控构建成功率。影响程度中等,主要涉及构建环境。
依赖更新风险 CI 流程变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR将RL构建工作流的runner从GPU-Build改为GPU-Build-RL,并更新基础镜像和Paddle whl URL,以解决资源不匹配问题。它属于CI基础设施优化,影响范围限于构建环境,但需关注依赖兼容性和review中发现的配置错误修复情况。

功能与动机

为什么做:根据PR body,当前runner配置与RL构建任务的GPU需求不匹配,可能导致资源错配或执行问题。具体表述为:"Current runner configuration does not match the GPU requirements of RL build tasks, which may lead to resource mismatch or execution issues." 因此,需要调整runner以确保正确的资源分配。

实现拆解

实现涉及两个关键文件的修改:

  1. .github/workflows/_build_linux_rl.yml
    • runs-on[self-hosted, GPU-Build]改为[self-hosted, GPU-Build-RL]
    • 更新基础镜像版本,从paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-rc2改为paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-v2.4.0-rc1
    • 更新PADDLE_WHL_URL以指向新的构建流水线。
  2. .github/workflows/ce_job.yml
    • 同步更新PADDLE_WHL_URL,确保一致性。

评论区精华

review讨论中,fastdeploy-bot指出PR描述与实际变更不符,并报告了关键问题:

🔴 Bug 分支名拼写错误:devel 应为 develop 此更改会导致 HPU CI 无法在 develop 分支的 PR 上触发,CI 流程将完全失效。

🔴 Bug 注释掉了主要 CI 测试流程 此变更注释掉了以下关键 CI 步骤:...这些是核心 CI 保护措施,合入后将导致 PR 无法通过常规 CI 检查。

这些评论强调了CI配置变更的严谨性,最终在提交前被修正(基于文件列表仅显示两个文件变更)。

风险与影响

风险

  • 资源分配风险:如果GPU-Build-RL runner配置不当,可能影响RL构建性能。
  • 依赖更新风险:基础镜像和Paddle whl URL变更可能引入兼容性问题。
  • CI流程风险:review中提到的错误如果未修复,将导致CI失效。

影响

  • 对用户无直接影响。
  • 对系统:优化RL构建资源分配,可能提升构建效率;但需监控构建稳定性。
  • 对团队:需要适应新的CI配置,影响程度中等。

关联脉络

与近期PR的关联:

  • PR #7138 和 #7132:同属CI基础设施优化,涉及Docker配置和测试环境改进,可对比学习。
  • PR #7171:涉及RL模块的bug修复和优化,本PR的CI变更可能支持此类任务的构建。

整体上,此PR反映了团队对CI环境持续优化的趋势,特别是在资源分配和依赖管理方面。

参与讨论