Prhub

#26392 [AMD] Relaxing timeout for AMD CI

原始 PR 作者 yctseng0211 合并时间 2026-05-26 17:25 文件变更 2 提交数 1 评论 1 代码增减 +6 / -6

执行摘要

放宽 AMD CI 超时限制

AMD CI 在运行测试时频繁因超时而失败,尤其是在 ROCm 720 环境下。作者通过放宽 timeout-minutes 设置,为测试提供更充裕的执行时间,避免硬件或环境波动导致 CI 误报失败,从而提高 CI 稳定性。

建议快速合入。该 PR 是纯运维调整,无代码风险,能有效缓解 AMD CI 的超时问题。后续可考虑优化测试速度或采用更智能的超时策略。

讨论亮点

该 PR 无 review 评论。仅有一条来自 gemini-code-assist[bot] 的自动评论,表示由于文件类型不支持而无法生成审查。

实现拆解

  1. .github/workflows/pr-test-amd-rocm720.yml 中,将以下 5 个 job 的 timeout-minutes 值增大:
    • stage-a(小规模测试): 15 → 30 分钟(翻倍)
    • stage-b(小规模测试): 30 → 60 分钟(翻倍)
    • stage-b 非确定性测试: 30 → 45 分钟(增加 50%)
    • stage-b 大规模测试(1 GPU): 30 → 45 分钟
    • stage-b 大规模测试(2 GPU): 30 → 45 分钟
  2. .github/workflows/pr-test-amd.yml 中,将 stage-a 测试的 timeout-minutes 从 15 改为 30 分钟。
  3. 所有修改均为纯数值调整,不涉及逻辑、依赖或测试内容的变化。
文件 模块 状态 重要度
.github/workflows/pr-test-amd-rocm720.yml CI 配置 modified 3.4
.github/workflows/pr-test-amd.yml CI 配置 modified 2.55

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  1. 资源浪费:超时时间放宽后,若测试真正失败(非超时),CI 将等待更长时间才终止,可能浪费计算资源和排队时间。
  2. 延迟反馈:对于真正的失败测试,开发者需要等待更久才能获得结果。
  3. 掩盖问题:过长的超时可能掩盖性能退化或资源泄漏等问题,使其不易被发现。
  1. AMD CI 稳定性:预期会显著减少因超时导致的 CI 失败,提高 CI 通过率。
  2. CI 总耗时:对于超时的作业,等待时间增加;对于正常通过的作业,无影响。
  3. 开发者体验:减少因基础设施不稳定导致的重复重试,提高开发效率。
可能延长 CI 反馈周期

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论