# PR #37913 完整报告

- 仓库：`vllm-project/vllm`
- 标题：Downsize CPU jobs to use small queue
- 合并时间：2026-03-24 11:36
- 原文链接：http://prhub.com.cn/vllm-project/vllm/pull/37913

---

## 执行摘要
此 PR 通过将 Buildkite CI 测试作业的设备从标准 cpu 队列降级到 cpu-small 和 cpu-medium，旨在削减运行成本。变更涉及三个 YAML 配置文件，但 review 中警告可能增加测试不稳定性，如内存不足或超时，未采纳缓解建议直接合并。

## 功能与动机
动机源于成本削减：PR body 明确说明“Downsize device to cpu small and cpu medium for cost reduction”。目标是减少 CI 资源消耗，优化基础设施开支。

## 实现拆解
修改了三个 Buildkite 测试区域配置文件：
- **`.buildkite/test_areas/misc.yaml`**：将两个测试步骤的 `device` 从 `cpu` 改为 `cpu-small`，影响 v1 核心测试和工具解析测试。
- **`.buildkite/test_areas/models_basic.yaml`**：将 vision 模型测试的 `device` 从 `cpu` 改为 `cpu-small`。
- **`.buildkite/test_areas/models_multimodal.yaml`**：将多模态模型测试的 `device` 从 `cpu` 改为 `cpu-medium`。
所有变更仅限于 YAML 配置，无代码逻辑调整。

## 评论区精华
review 由 gemini-code-assist[bot] 主导，核心讨论聚焦于降级带来的风险：
- **对 models_basic.yaml**：bot 指出“Vision model tests can be resource-intensive... might risk test flakiness due to insufficient memory or CPU”，建议保持标准队列。
- **对 misc.yaml 和 models_multimodal.yaml**：bot 多次建议添加 `soft_fail: true` 来临时评估稳定性，例如“Adding `soft_fail: true` temporarily would be a safe way to evaluate its stability without disrupting the main development workflow”。
讨论未采纳任何建议，PR 直接合并，暗示团队权衡成本与稳定性后接受风险。

## 风险与影响
**技术风险**：
- **测试不稳定性**：cpu-small 和 cpu-medium 队列资源有限，可能导致 OOM 错误、超时或随机失败，尤其在资源密集的 vision 和多模态测试中。
- **CI 阻塞风险**：未添加 `soft_fail` 机制可能使失败测试阻塞 PR 合并流程，影响开发速度。

**影响分析**：
- **积极影响**：潜在降低 CI 运行成本。
- **消极影响**：可能增加 CI 失败率，迫使团队投入更多时间调试，降低开发效率。影响范围限于修改的测试作业，不直接影响生产代码性能。

## 关联脉络
从历史 PR 看，`.buildkite/test_areas/misc.yaml` 频繁修改（如 PR #37016 拆分作业、#37895 添加测试），表明该仓库持续优化 CI 配置以平衡测试覆盖与资源效率。本 PR 是这一趋势的一部分，但侧重成本削减而非测试拆分或新增功能。关联 PR 如 #37016 和 #37895 显示类似文件修改模式，揭示团队在 CI 基础设施上的活跃维护。