PR #25978 分析报告:AMD CI 超时放宽与并行优化
执行摘要
本 PR 针对 AMD CI 工作流中的 stage-a 测试超时问题进行修复,将超时限制从 10 分钟放宽至 15 分钟,同时允许 multimodal shard 并行执行,以提升 CI 稳定性和效率。变更仅涉及两个 YAML 配置文件,风险较低。
功能与动机
根据 PR body 描述,stage-a 测试在较慢的 mi300 runner 上频繁达到 10 分钟超时上限。例如在 PR #25898 的 CI 运行(run 26208502456)中,test_basic_sanity.py 一项就消耗了 331 秒,远高于预估的 160 秒,导致整个步骤超时。此外,ROCm720 CI 中 multimodal shard 设置了 max-parallel: 1,原本是为了防止 AITER kernel JIT 编译时资源耗尽,但实际运行时反而因串行执行导致整体耗时增加,且资源逐出问题可以通过其他方式缓解,因此决定去掉该限制。
实现拆解
-
超时调整:在两个工作流文件(pr-test-amd.yml 和 pr-test-amd-rocm720.yml)中,将 timeout-minutes: 10 改为 timeout-minutes: 15。这一修改直接覆盖了 stage-a 测试的运行步骤,为慢速 runner 提供额外 5 分钟的缓冲。
-
并行 shard 优化:仅涉及 pr-test-amd-rocm720.yml,删除了 multimodal job 策略中的 max-parallel: 1 行。这使得原本串行的 4 个 shard 可以同时运行,加快 CI 反馈速度。
无关键源码(仅 YAML 配置变更)。
评论区精华
无 review 评论。
风险与影响
- 风险:去掉
max-parallel 后,多个 shard 同时运行可能增加 GPU 资源争用,但原本限制是为了防止 AITER kernel JIT 资源耗尽,该问题理论上已通过其他改进缓解。超时放宽不会引入功能风险。
- 影响:直接影响 AMD CI 的 stage-a 测试流程,减少因为超时导致的失败误报,提升开发者体验。对最终用户无影响。
关联脉络
- 关联 #25898:该 PR 的 CI 运行暴露了超时问题,是本次调整的直接触发因素。
- 与近期 AMD CI 清理 PR(如 #25266)同属提升 CI 稳定性的系列工作。
参与讨论