执行摘要
此PR将RL构建工作流的runner从GPU-Build改为GPU-Build-RL,并更新基础镜像和Paddle whl URL,以解决资源不匹配问题。它属于CI基础设施优化,影响范围限于构建环境,但需关注依赖兼容性和review中发现的配置错误修复情况。
功能与动机
为什么做:根据PR body,当前runner配置与RL构建任务的GPU需求不匹配,可能导致资源错配或执行问题。具体表述为:"Current runner configuration does not match the GPU requirements of RL build tasks, which may lead to resource mismatch or execution issues." 因此,需要调整runner以确保正确的资源分配。
实现拆解
实现涉及两个关键文件的修改:
.github/workflows/_build_linux_rl.yml:
- 将
runs-on从[self-hosted, GPU-Build]改为[self-hosted, GPU-Build-RL]。
- 更新基础镜像版本,从
paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-rc2改为paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-v2.4.0-rc1。
- 更新PADDLE_WHL_URL以指向新的构建流水线。
.github/workflows/ce_job.yml:
- 同步更新PADDLE_WHL_URL,确保一致性。
评论区精华
review讨论中,fastdeploy-bot指出PR描述与实际变更不符,并报告了关键问题:
🔴 Bug 分支名拼写错误:devel 应为 develop 此更改会导致 HPU CI 无法在 develop 分支的 PR 上触发,CI 流程将完全失效。
🔴 Bug 注释掉了主要 CI 测试流程 此变更注释掉了以下关键 CI 步骤:...这些是核心 CI 保护措施,合入后将导致 PR 无法通过常规 CI 检查。
这些评论强调了CI配置变更的严谨性,最终在提交前被修正(基于文件列表仅显示两个文件变更)。
风险与影响
风险:
- 资源分配风险:如果GPU-Build-RL runner配置不当,可能影响RL构建性能。
- 依赖更新风险:基础镜像和Paddle whl URL变更可能引入兼容性问题。
- CI流程风险:review中提到的错误如果未修复,将导致CI失效。
影响:
- 对用户无直接影响。
- 对系统:优化RL构建资源分配,可能提升构建效率;但需监控构建稳定性。
- 对团队:需要适应新的CI配置,影响程度中等。
关联脉络
与近期PR的关联:
- PR #7138 和 #7132:同属CI基础设施优化,涉及Docker配置和测试环境改进,可对比学习。
- PR #7171:涉及RL模块的bug修复和优化,本PR的CI变更可能支持此类任务的构建。
整体上,此PR反映了团队对CI环境持续优化的趋势,特别是在资源分配和依赖管理方面。
参与讨论