Prhub

#25112 [AMD] Bump --timeout-per-file 1800->2400 for stage-b-test-1-gpu-small-amd

原始 PR 作者 michaelzhang-ai 合并时间 2026-05-15 15:10 文件变更 1 提交数 1 评论 3 代码增减 +2 / -2

执行摘要

AMD CI 超时参数调整:1800→2400 秒

PR body 指出 test_vlm_perf_5090.py 在 AMD MI300 上的实际运行时间存在显著波动,其中一次达到 1801 秒导致超时(0/8 passed)。作者收集了 13 次近期运行数据,统计显示 mean=1308 s, stdev=172 s, max=1801 s,1800 秒超时无任何余量,而 2400 秒可覆盖所有观测值并提供 33% 余量。同时 step-level timeout-minutes 也需从 45 分钟提升至 60 分钟,因为 40 分钟的 per-file 超时加上其他测试文件约 7 分钟和约 2-3 分钟 setup 可能超过 45 分钟。

该 PR 是典型的 CI 运维优化,值得关注的是其数据驱动的分析方法和详实的 PR body。技术决策者可以学习如何基于实际运行数据(分布统计、分阶段对比)来合理设置超时阈值。

讨论亮点

审核简洁,两位 reviewer(yctseng0211 和 bingxche)均直接批准,无额外讨论。PR body 本身包含详尽的数值分析,无待解决的分歧。

实现拆解

  1. 修改超时参数:在 .github/workflows/pr-test-amd.yml 中,将 stage-b-test-1-gpu-small-amd job 中 run 步骤的 timeout-per-file 参数从 1800 改为 2400
  2. 同步调整步骤超时:将同一步骤的 timeout-minutes45 改为 60,确保整个步骤有足够时间完成(考虑 per-file 超时、其他文件执行时间及 setup 开销)。
  3. 保持其他 job 不变rocm720 变体(pr-test-amd-rocm720.yml)和 stage-b-test-1-gpu-small-amd-nondeterministic job 的超时值保持不变,因为其硬件 MI325 的实际耗时约 1000 秒,1800 秒超时足够。
  4. 数据驱动决策:PR body 提供了详细的统计分析,包括每阶段耗时对比、分布参数,并解释长尾原因(HF 缓存未命中、启动阶段变慢、重试导致的组合效应),确保调整有理有据。
文件 模块 状态 重要度
.github/workflows/pr-test-amd.yml CI 配置 modified 3.53

关键源码片段

.github/workflows/pr-test-amd.yml infrastructure

唯一修改的文件,调整了 CI 超时配置。

# .github/workflows/pr-test-amd.yml, 第 419-429 行
      - name: Run test
        # 步骤级别超时:45 分钟 → 60 分钟,给慢速 runner pod 更多余量
        timeout-minutes: 60
        run: |
          bash scripts/ci/amd/amd_ci_exec.sh -w "/sglang-checkout/test" \
            python3 run_suite.py \
              --hw amd \
              --suite stage-b-test-1-gpu-small-amd \
              --auto-partition-id ${{ matrix.part }} \
              --auto-partition-size 14 \
              # --timeout-per-file 从 1800 秒调整为 2400 秒,
              # 基于 13 次运行数据的分析:mean=1308s, max=1801s, 33% 余量
              --timeout-per-file 2400 \
              ${{ needs.check-changes.outputs.continue_on_error == 'true' && '--continue-on-error' || '' }}

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险非常低。仅调整 CI 超时参数,不涉及任何代码逻辑变更。超时值从 1800 秒增加到 2400 秒(增加 33%),不会影响测试正确性或系统稳定性。但若未来测试用例进一步变慢,可能需要再次调整。

仅影响 AMD CI 中 stage-b-test-1-gpu-small-amd job(MI300 硬件)。减少该 job 因超时而失败的概率,提升 CI 稳定性。对其他平台、其他测试套件无影响。

低风险 CI 稳定性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论