Prhub

#37913 Downsize CPU jobs to use small queue

vllm-project/vllm · 作者 khluu · 合并时间 2026-03-24 11:36

分析状态 已生成
文件变更 3提交数 2 · 评论 6
代码增减 +4 / -4
ci test

执行摘要

将 CPU CI 测试作业设备降级到 small 和 medium 队列以削减成本。

PR body中说明:'Downsize device to cpu small and cpu medium for cost reduction',目的是通过使用更小型的CI资源来降低运行测试的成本。

建议工程团队关注这些降级作业的CI稳定性,监控失败率;如有频繁失败,应考虑回滚到标准队列或添加soft_fail选项以降低阻塞风险。

讨论亮点

gemini-code-assist[bot]在review中多次警告降级可能导致CI flakiness:

  • 对于models_basic.yaml中的vision模型测试,bot指出:'Vision model tests can be resource-intensive. Moving this job to the cpu-small queue might risk test flakiness due to insufficient memory or CPU',建议保持标准cpu队列。
  • 对于misc.yaml中的测试,bot建议:'Adding soft_fail: true temporarily would be a safe way to evaluate its stability'。
  • 讨论未采纳建议,PR直接合并。

实现拆解

修改了三个Buildkite配置文件:.buildkite/test_areas/misc.yaml 中的两个步骤设备从cpu改为cpu-small;.buildkite/test_areas/models_basic.yaml 中的一个步骤设备从cpu改为cpu-small;.buildkite/test_areas/models_multimodal.yaml 中的一个步骤设备从cpu改为cpu-medium。所有变更仅涉及device字段的调整,代码逻辑无变化。

文件 模块 状态 重要度
.buildkite/test_areas/misc.yaml CI Configuration modified 5.0
.buildkite/test_areas/models_basic.yaml CI Configuration modified 6.0
.buildkite/test_areas/models_multimodal.yaml CI Configuration modified 6.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

CI 资源降级导致的测试稳定性风险 测试

gemini-code-assist[bot] 在多个文件中警告降级到 cpu-small 或 cpu-medium 可能引起测试 flakiness、OOM 错误和超时,建议保持标准 cpu 队列或添加 soft_fail: true 来缓解。

结论:PR merged without adopting the bot's suggestions, indicating a decision to accept the risk for cost reduction. · unresolved

风险与影响

主要风险是测试不稳定性增加:cpu-small和cpu-medium队列资源有限,可能导致内存错误(OOM)、超时或测试失败,影响CI可靠性。具体风险点包括:

  • .buildkite/test_areas/models_basic.yaml中的vision模型测试,因资源密集可能失败。
  • .buildkite/test_areas/models_multimodal.yaml中的多模态测试,涉及外部依赖安装,对资源敏感。
    未添加soft_fail机制可能使失败的测试阻塞PR合并流程。

对系统的影响:可能降低CI运行成本,但增加测试失败的概率,影响CI可靠性和开发效率。对团队的影响:开发人员可能遇到更多CI失败,需要额外时间调试或重跑测试。影响范围限于修改的三个YAML文件中的测试作业,不直接影响生产代码。

CI 稳定性风险 资源不足风险 缺少故障容忍

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR通过将Buildkite CI测试作业的设备从标准cpu队列降级到cpu-small和cpu-medium,旨在削减运行成本。变更涉及三个YAML配置文件,但review中警告可能增加测试不稳定性,如内存不足或超时,未采纳缓解建议直接合并。

功能与动机

动机源于成本削减:PR body明确说明“Downsize device to cpu small and cpu medium for cost reduction”。目标是减少CI资源消耗,优化基础设施开支。

实现拆解

修改了三个Buildkite测试区域配置文件:

  • .buildkite/test_areas/misc.yaml:将两个测试步骤的devicecpu改为cpu-small,影响v1核心测试和工具解析测试。
  • .buildkite/test_areas/models_basic.yaml:将vision模型测试的devicecpu改为cpu-small
  • .buildkite/test_areas/models_multimodal.yaml:将多模态模型测试的devicecpu改为cpu-medium
    所有变更仅限于YAML配置,无代码逻辑调整。

评论区精华

review由gemini-code-assist[bot]主导,核心讨论聚焦于降级带来的风险:

  • 对models_basic.yaml:bot指出“Vision model tests can be resource-intensive... might risk test flakiness due to insufficient memory or CPU”,建议保持标准队列。
  • 对misc.yaml和models_multimodal.yaml:bot多次建议添加soft_fail: true来临时评估稳定性,例如“Adding soft_fail: true temporarily would be a safe way to evaluate its stability without disrupting the main development workflow”。
    讨论未采纳任何建议,PR直接合并,暗示团队权衡成本与稳定性后接受风险。

风险与影响

技术风险

  • 测试不稳定性:cpu-small和cpu-medium队列资源有限,可能导致OOM错误、超时或随机失败,尤其在资源密集的vision和多模态测试中。
  • CI阻塞风险:未添加soft_fail机制可能使失败测试阻塞PR合并流程,影响开发速度。

影响分析

  • 积极影响:潜在降低CI运行成本。
  • 消极影响:可能增加CI失败率,迫使团队投入更多时间调试,降低开发效率。影响范围限于修改的测试作业,不直接影响生产代码性能。

关联脉络

从历史PR看,.buildkite/test_areas/misc.yaml频繁修改(如PR #37016拆分作业、#37895添加测试),表明该仓库持续优化CI配置以平衡测试覆盖与资源效率。本PR是这一趋势的一部分,但侧重成本削减而非测试拆分或新增功能。关联PR如#37016和#37895显示类似文件修改模式,揭示团队在CI基础设施上的活跃维护。

参与讨论