Prhub

#37913 Downsize CPU jobs to use small queue

原始 PR 作者 khluu 合并时间 2026-03-24 11:36 文件变更 3 提交数 2 评论 6 代码增减 +4 / -4

执行摘要

将 CPU CI 测试作业设备降级到 small 和 medium 队列以削减成本。

PR body中说明:'Downsize device to cpu small and cpu medium for cost reduction',目的是通过使用更小型的CI资源来降低运行测试的成本。

建议工程团队关注这些降级作业的CI稳定性,监控失败率;如有频繁失败,应考虑回滚到标准队列或添加soft_fail选项以降低阻塞风险。

讨论亮点

gemini-code-assist[bot]在review中多次警告降级可能导致CI flakiness:

  • 对于models_basic.yaml中的vision模型测试,bot指出:'Vision model tests can be resource-intensive. Moving this job to the cpu-small queue might risk test flakiness due to insufficient memory or CPU',建议保持标准cpu队列。
  • 对于misc.yaml中的测试,bot建议:'Adding soft_fail: true temporarily would be a safe way to evaluate its stability'。
  • 讨论未采纳建议,PR直接合并。

实现拆解

修改了三个Buildkite配置文件:.buildkite/test_areas/misc.yaml 中的两个步骤设备从cpu改为cpu-small;.buildkite/test_areas/models_basic.yaml 中的一个步骤设备从cpu改为cpu-small;.buildkite/test_areas/models_multimodal.yaml 中的一个步骤设备从cpu改为cpu-medium。所有变更仅涉及device字段的调整,代码逻辑无变化。

文件 模块 状态 重要度
.buildkite/test_areas/misc.yaml CI Configuration modified 5.0
.buildkite/test_areas/models_basic.yaml CI Configuration modified 6.0
.buildkite/test_areas/models_multimodal.yaml CI Configuration modified 6.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

CI 资源降级导致的测试稳定性风险 测试

gemini-code-assist[bot] 在多个文件中警告降级到 cpu-small 或 cpu-medium 可能引起测试 flakiness、OOM 错误和超时,建议保持标准 cpu 队列或添加 soft_fail: true 来缓解。

结论:PR merged without adopting the bot's suggestions, indicating a decision to accept the risk for cost reduction. · unresolved

风险与影响

主要风险是测试不稳定性增加:cpu-small和cpu-medium队列资源有限,可能导致内存错误(OOM)、超时或测试失败,影响CI可靠性。具体风险点包括:

  • .buildkite/test_areas/models_basic.yaml中的vision模型测试,因资源密集可能失败。
  • .buildkite/test_areas/models_multimodal.yaml中的多模态测试,涉及外部依赖安装,对资源敏感。
    未添加soft_fail机制可能使失败的测试阻塞PR合并流程。

对系统的影响:可能降低CI运行成本,但增加测试失败的概率,影响CI可靠性和开发效率。对团队的影响:开发人员可能遇到更多CI失败,需要额外时间调试或重跑测试。影响范围限于修改的三个YAML文件中的测试作业,不直接影响生产代码。

CI 稳定性风险 资源不足风险 缺少故障容忍

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论