Prhub

#25978 [AMD] Relaxing Timeout for AMD stage-a

原始 PR 作者 yctseng0211 合并时间 2026-05-21 17:32 文件变更 2 提交数 3 评论 1 代码增减 +2 / -4

执行摘要

放宽 AMD CI stage-a 超时并并行运行 shard

PR body 指出 stage-a 任务在较慢的 mi300 runner 上频繁达到 10 分钟超时限制,例如 PR #25898 中 test_basic_sanity.py 一项就消耗了 331 秒。同时,ROCm720 CI 中 multimodal shard 的 max-parallel=1 导致 AITER kernel JIT 资源耗尽而被逐出,需要去掉该限制以并行运行。

建议合并,这是一次针对 CI 稳定性的低风险调整。若有进一步 CI 资源问题,可考虑优化测试执行时间或增加 runner 资源。

讨论亮点

仅有审核人 bingxche 批准,无额外讨论。

实现拆解

  1. 超时调整:在 .github/workflows/pr-test-amd.yml.github/workflows/pr-test-amd-rocm720.yml 中,将 stage-a-test-1-gpu-small-amd 的 timeout-minutes10 改为 15
  2. 并行 shard:在 .github/workflows/pr-test-amd-rocm720.yml 中,去掉 multimodal job 的 max-parallel: 1 限制,允许所有 shard 并行执行。这两处修改均为简单的 YAML 配置变更。
文件 模块 状态 重要度
.github/workflows/pr-test-amd-rocm720.yml CI 配置 modified 3.21
.github/workflows/pr-test-amd.yml CI 配置 modified 2.92

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:超时增加只是放宽执行窗口,不影响正确性;去掉 max-parallel 可能略微增加资源压力,但原本设置为 1 是为了防止 AITER kernel JIT 资源耗尽,取消后可能会在极端情况下出现资源竞争。

影响范围仅限于 AMD CI 工作流中的 stage-a 测试和 ROCm720 multimodal shard。对用户无直接影响,可减少 CI 误报超时失败,提升 AMD 开发者体验。

资源竞争风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论