执行摘要
- 一句话:将 xeon PR 测试超时从 36 分钟增加到 60 分钟
- 推荐动作:该 PR 属于简单的运维调整,无需深入审查。值得注意的设计决策是主动为特定硬件 runner 调整超时参数,以适配其实际性能特征,这是一种务实的 CI 管理方式。
功能与动机
Run unit tests step in pr-test-xeon.yml occasionally hits the 36-minute step timeout on the xeon-gnr runner, causing spurious CI failures unrelated to test correctness. Bump the timeout to 60 minutes.
实现拆解
修改 .github/workflows/pr-test-xeon.yml 中的一个配置项:将如下步骤的 timeout-minutes 从 36 改为 60。
- 步骤名称:Run unit tests
- 变更:
timeout-minutes: 36 -> timeout-minutes: 60
该变更仅影响 xeon 特定 CI 流程,不涉及任何源码、测试或配置的改动。
关键文件:
.github/workflows/pr-test-xeon.yml(模块 CI配置;类别 infra;类型 infrastructure): 唯一变更文件,将单元测试步骤超时从 36 分钟增加到 60 分钟,解决 CI 假失败问题。
关键符号:未识别
关键源码片段
.github/workflows/pr-test-xeon.yml
唯一变更文件,将单元测试步骤超时从 36 分钟增加到 60 分钟,解决 CI 假失败问题。
# .github/workflows/pr-test-xeon.yml
# 片段:Run unit tests 步骤(仅展示相关部分)
- name: Run unit tests
timeout-minutes: 60 # 从 36 分钟增加,以应对 xeon-gnr runner 偶尔的性能波动
run: |
docker exec -w /sglang-checkout/ ci_sglang_${{ matrix.runner }} \
bash -c "source /opt/.venv/bin/activate && cd ./test && python3 run_suite.py --hw cpu --suite ${{ matrix.suite }} ${{ matrix.partition_args }}"
评论区精华
无实质性讨论;仅有一条 Gemini 自动评论表示无法审阅,以及作者 1pikachu 触发 /tag-and-rerun-ci。变更经 mingfeima 批准。
风险与影响
- 风险:风险极低。仅调整了 CI 步骤的超时时间,不会影响任何代码逻辑、测试正确性或系统行为。潜在风险是被掩盖的测试性能退化可能更晚被发现,但超时本身并非测试失败的合理原因,适当延长是常规做法。
- 影响:影响范围仅限 xeon CI 流程,用户无感知,开发者在 xeon runner 上遇到超时假失败的概率将降低。不影响主流程或其他 CI。
- 风险标记:暂无
关联脉络
参与讨论