执行摘要
本 PR 将 AMD CI 工作流中多个测试阶段的超时时间(timeout-minutes)翻倍或增加 50%,以缓解因硬件或环境波动导致的偶发超时失败。变更仅涉及 .github/workflows/ 下的两个 YAML 配置文件,不包含任何代码逻辑修改。
功能与动机
AMD CI 在运行测试时频繁因超时而失败,尤其是在 ROCm 720 环境下。作者通过放宽 timeout-minutes 设置,为测试提供更充裕的执行时间,避免硬件或环境波动导致 CI 误报失败,从而提高 CI 稳定性。
实现拆解
- 修改 pr-test-amd-rocm720.yml(5 处调整)
- stage-a(1 GPU 小规模): 15 → 30 分钟
- stage-b(1 GPU 小规模): 30 → 60 分钟
- stage-b 非确定性测试: 30 → 45 分钟
- stage-b(1 GPU 大规模): 30 → 45 分钟
- stage-b(2 GPU 大规模): 30 → 45 分钟
- 修改 pr-test-amd.yml(1 处调整)
- stage-a(1 GPU 小规模): 15 → 30 分钟
- 所有变更均为纯数值调整,不涉及逻辑、依赖或测试内容的变化。
无(变更仅为 YAML 配置中的数值修改,无有意义代码片段)。
评论区精华
该 PR 无 review 评论。仅有一条来自 gemini-code-assist[bot] 的自动评论,表示由于文件类型不支持而无法生成审查。
风险与影响
- 正面影响:显著减少因超时导致的 AMD CI 失败,提高 CI 通过率和开发者体验。
- 风险:超时放宽后,真正失败的测试会等待更长时间才终止,可能浪费计算资源并延迟反馈。长期需关注是否掩盖性能退化问题。
关联脉络
无直接关联 PR。
参与讨论