#43030 [ci] Route 28 gpu_1_queue tests to h200_35gb queue

原始 PR 作者 khluu 合并时间 2026-05-19 12:58 文件变更 12 提交数 2 评论 1 代码增减 +28 / -0

执行摘要

28 个 CI 测试从 gpu_1_queue 迁移到 h200_35gb

这些测试在h200_18gb (1g.18gb MIG)上出现OOM失败，但在h200_35gb (1g.35gb MIG)上全部通过（见build #66777）。需要将测试路由到更大的GPU分片以维持CI稳定性。

建议跟进清理misc.yaml中的遗留gpu: h100字段，避免后续冲突。此外，可考虑对类似的配置进行统一审查，确保硬件分配清晰。

讨论亮点

唯一的review评论来自gemini-code-assist[bot]，指出.buildkite/test_areas/misc.yaml中新增的device字段与已有的gpu: h100字段冲突，可能导致调度问题。该问题在PR中未解决，需要后续清理。

实现拆解

预验证：在h200_35gb队列的build #66777上运行28个候选测试，全部通过。
OOM确认：同一批测试在h200_18gb队列的build #66798上运行，25/28因内存不足失败。
修改配置：在.buildkite/test_areas/下的12个YAML文件中，为对应的测试步骤添加device: h200_35gb行。受影响文件包括models_multimodal.yaml(5处)、models_basic.yaml(4处)、model_runner_v2.yaml(3处)、models_language.yaml(3处)等。
遗留问题：在misc.yaml中，对"Acceptance Length Test (Large Models)"步骤同时设置了device: h200_35gb和gpu: h100，存在调度冲突隐患，尚未清理。

文件	模块	状态	重要度
`.buildkite/test_areas/models_multimodal.yaml`	CI 配置	modified	3.87
`.buildkite/test_areas/models_basic.yaml`	CI 配置	modified	3.76
`.buildkite/test_areas/model_runner_v2.yaml`	CI 配置	modified	3.63
`.buildkite/test_areas/models_language.yaml`	CI 配置	modified	3.63

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

misc.yaml 中 device 与 gpu 字段冲突 other

gemini-code-assist[bot] 在 review 中指出，向 'Acceptance Length Test (Large Models)' 步骤添加 device 字段（评论中写 h200_18gb，实际最终为 h200_35gb）与已有的 gpu: h100 字段冲突，可能导致调度问题。

结论：未在本次 PR 中解决；PR 合并后仍保留 gpu: h100，需后续清理。 · unresolved

风险与影响

风险较低。主要风险是misc.yaml中同时指定device和gpu可能导致BuildKite调度器行为不确定，但实际运行中未报告问题。其他变更仅添加device字段，未修改现有字段，风险很小。

对用户无直接影响。对CI系统，这些测试将始终在h200_35gb上运行，避免了在h200_18gb上的OOM失败，提高了CI可靠性。同时减轻了h200_18gb队列的压力，但增加了h200_35gb的负载。

配置冲突未清理

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：28个CI测试从gpu_1_queue迁移到h200_35gb
推荐动作：建议跟进清理misc.yaml中的遗留gpu: h100字段，避免后续冲突。此外，可考虑对类似的配置进行统一审查，确保硬件分配清晰。

功能与动机

这些测试在h200_18gb (1g.18gb MIG)上出现OOM失败，但在h200_35gb (1g.35gb MIG)上全部通过（见build #66777）。需要将测试路由到更大的GPU分片以维持CI稳定性。

实现拆解

预验证：在h200_35gb队列的build #66777上运行28个候选测试，全部通过。
OOM确认：同一批测试在h200_18gb队列的build #66798上运行，25/28因内存不足失败。
修改配置：在.buildkite/test_areas/下的12个YAML文件中，为对应的测试步骤添加device: h200_35gb行。受影响文件包括models_multimodal.yaml(5处)、models_basic.yaml(4处)、model_runner_v2.yaml(3处)、models_language.yaml(3处)等。
遗留问题：在misc.yaml中，对"Acceptance Length Test (Large Models)"步骤同时设置了device: h200_35gb和gpu: h100，存在调度冲突隐患，尚未清理。

关键文件：

.buildkite/test_areas/models_multimodal.yaml（模块 CI配置；类别 config；类型 configuration）: 修改了5处，是本次变更最多的文件，涉及多模态模型测试步骤
.buildkite/test_areas/models_basic.yaml（模块 CI配置；类别 config；类型 configuration）: 修改了4处，涉及基础模型测试
.buildkite/test_areas/model_runner_v2.yaml（模块 CI配置；类别 config；类型 configuration）: 修改了3处，涉及V2模型运行器测试
.buildkite/test_areas/models_language.yaml（模块 CI配置；类别 config；类型 configuration）: 修改了3处，涉及语言模型测试

关键符号：未识别

评论区精华

misc.yaml 中 device 与 gpu 字段冲突 (other): 未在本次 PR 中解决；PR 合并后仍保留 gpu: h100，需后续清理。

风险与影响

风险：风险较低。主要风险是misc.yaml中同时指定device和gpu可能导致BuildKite调度器行为不确定，但实际运行中未报告问题。其他变更仅添加device字段，未修改现有字段，风险很小。
影响：对用户无直接影响。对CI系统，这些测试将始终在h200_35gb上运行，避免了在h200_18gb上的OOM失败，提高了CI可靠性。同时减轻了h200_18gb队列的压力，但增加了h200_35gb的负载。
风险标记：配置冲突未清理

关联脉络

暂无明显关联 PR

#43030 [ci] Route 28 gpu_1_queue tests to h200_35gb queue

执行摘要

28 个 CI 测试从 gpu_1_queue 迁移到 h200_35gb

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论