Prhub

#38956 [ci] Switch some CI jobs to H200 MIG slices

原始 PR 作者 khluu 合并时间 2026-04-06 04:26 文件变更 14 提交数 4 评论 2 代码增减 +25 / -0

执行摘要

将 25 个通过验证的 CI 测试步骤切换到 H200 MIG 18GB 设备队列。

PR body 指出:'Adds device: h200_18gb to CI test steps that were validated as passing on H200 MIG 1g.18gb slices (~18GB GPU memory)',关联 Issue #325 添加了 h200_18gb 队列用于 H200 MIG 切片,以扩展 CI 测试的 GPU 资源类型和提升测试效率。

建议 CI/基础设施维护者审阅此 PR,以了解测试资源分配策略更新和依赖的外部变更;对于一般开发者,无需深入阅读代码,但可关注 CI 环境变化可能带来的测试执行时间或资源占用差异。

讨论亮点

Review 中仅有 gemini-code-assist[bot] 的自动评论,无实质性技术讨论。Issue 评论中,khluu 指出失败的CPU测试和B200作业问题与本次变更无关,确认变更仅影响25个L4作业,且因修改 test_areas 文件触发了全组测试,但实际范围有限。

实现拆解

修改了14个Buildkite测试配置文件(位于.buildkite/test_areas/),在每个选定的测试步骤中添加 device: h200_18gb 字段。关键改动覆盖多个测试领域:基础正确性、基准测试、CUDA平台、引擎、入口点、专家并行、内核、杂项、模型基础、语言模型、多模态模型、PyTorch、Ray兼容性和推测解码。提交历史显示从最初标记50个步骤缩减到25个,仅保留在build 59734中通过的步骤,避免包含失败或未运行的作业。

文件 模块 状态 重要度
.buildkite/test_areas/basic_correctness.yaml CI Configuration modified 3.0
.buildkite/test_areas/engine.yaml CI Configuration modified 4.0
.buildkite/test_areas/models_multimodal.yaml CI Configuration modified 3.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

变更影响确认 question

Issue 评论中,khluu 解释失败的 CPU 测试和 B200 作业问题与本次 CI 变更无关,强调变更仅针对 25 个 L4 作业。

结论:确认变更范围有限,不影响其他测试作业,且失败由基础设施问题导致。 · 已解决

风险与影响

风险包括:1) 依赖外部 ci-infra 变更(vllm-project/ci-infra#325),若队列支持未及时部署,可能导致测试排队失败或资源不可用;2) 新设备类型(H200 MIG)可能引入未预期的性能或兼容性问题,尽管已在构建59734中验证通过;3) 修改多个配置文件存在配置错误风险,但变更简单(仅添加字段),风险较低。

影响范围:CI 测试将部分使用 H200 MIG 切片运行,可能提高资源利用效率、测试多样性或成本优化;对最终用户无直接影响,仅涉及内部测试环境;开发团队需关注 ci-infra 队列状态以确保测试正常执行。影响程度:低,仅为资源配置调整,不影响产品功能或性能。

依赖外部变更 配置多文件修改 新设备类型兼容性

关联 Issue

#325 Add h200_18gb queue for H200 MIG slices

完整报告

执行摘要

本PR将25个通过验证的CI测试步骤的设备目标切换为H200 MIG 18GB队列,基于构建59734的测试结果,旨在优化CI资源分配。变更仅涉及Buildkite配置文件更新,对代码逻辑无直接影响,需配套ci-infra队列支持。

功能与动机

为解决CI测试资源多样化需求,利用H200 MIG切片提供18GB GPU内存环境,提升测试覆盖和效率。PR body 明确提到“Adds device: h200_18gb to CI test steps that were validated as passing”,关联Issue #325添加了对应队列支持,以扩展GPU资源类型。

实现拆解

修改了14个Buildkite配置文件,在选定测试步骤中添加 device: h200_18gb 字段。关键文件包括:

  • .buildkite/test_areas/basic_correctness.yaml:基础正确性测试
  • .buildkite/test_areas/engine.yaml:引擎和调度测试
  • .buildkite/test_areas/models_multimodal.yaml:多模态模型测试

提交历史显示初始标记50个步骤,后缩减到25个仅保留通过验证的步骤,避免包含失败或未运行作业。

评论区精华

Review 无实质技术讨论,仅 gemini-code-assist[bot] 自动评论。Issue 评论中,khluu 指出:“2 CPU tests failing are not related.. the rest of B200 jobs failing is because of infra issue”,确认变更范围有限,仅影响25个L4作业。

风险与影响

风险

  1. 依赖外部ci-infra变更,若队列支持不到位,可能导致测试排队失败。
  2. 新设备类型可能引入未预见的兼容性问题,尽管已通过验证。
  3. 多文件配置修改存在疏忽风险,但变更简单(仅添加字段)。

影响

  • CI测试将部分使用H200 MIG资源,可能优化资源利用或测试多样性。
  • 对用户无直接影响,仅内部测试环境调整。
  • 团队需确保ci-infra同步,以维持测试正常执行。

关联脉络

与历史PR如#38959、#38941、#38951等同为CI配置调整,反映团队在持续优化测试基础设施。这些变更共同支持vLLM项目在多样化硬件环境下的测试稳健性。

参与讨论