Prhub

#43030 [ci] Route 28 gpu_1_queue tests to h200_35gb queue

原始 PR 作者 khluu 合并时间 2026-05-19 12:58 文件变更 12 提交数 2 评论 1 代码增减 +28 / -0

执行摘要

28 个 CI 测试从 gpu_1_queue 迁移到 h200_35gb

这些测试在h200_18gb (1g.18gb MIG)上出现OOM失败,但在h200_35gb (1g.35gb MIG)上全部通过(见build #66777)。需要将测试路由到更大的GPU分片以维持CI稳定性。

建议跟进清理misc.yaml中的遗留gpu: h100字段,避免后续冲突。此外,可考虑对类似的配置进行统一审查,确保硬件分配清晰。

讨论亮点

唯一的review评论来自gemini-code-assist[bot],指出.buildkite/test_areas/misc.yaml中新增的device字段与已有的gpu: h100字段冲突,可能导致调度问题。该问题在PR中未解决,需要后续清理。

实现拆解

  1. 预验证:在h200_35gb队列的build #66777上运行28个候选测试,全部通过。
  2. OOM确认:同一批测试在h200_18gb队列的build #66798上运行,25/28因内存不足失败。
  3. 修改配置:在.buildkite/test_areas/下的12个YAML文件中,为对应的测试步骤添加device: h200_35gb行。受影响文件包括models_multimodal.yaml(5处)、models_basic.yaml(4处)、model_runner_v2.yaml(3处)、models_language.yaml(3处)等。
  4. 遗留问题:在misc.yaml中,对"Acceptance Length Test (Large Models)"步骤同时设置了device: h200_35gbgpu: h100,存在调度冲突隐患,尚未清理。
文件 模块 状态 重要度
.buildkite/test_areas/models_multimodal.yaml CI 配置 modified 3.87
.buildkite/test_areas/models_basic.yaml CI 配置 modified 3.76
.buildkite/test_areas/model_runner_v2.yaml CI 配置 modified 3.63
.buildkite/test_areas/models_language.yaml CI 配置 modified 3.63

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

misc.yaml 中 device 与 gpu 字段冲突 other

gemini-code-assist[bot] 在 review 中指出,向 'Acceptance Length Test (Large Models)' 步骤添加 device 字段(评论中写 h200_18gb,实际最终为 h200_35gb)与已有的 gpu: h100 字段冲突,可能导致调度问题。

结论:未在本次 PR 中解决;PR 合并后仍保留 gpu: h100,需后续清理。 · unresolved

风险与影响

风险较低。主要风险是misc.yaml中同时指定devicegpu可能导致BuildKite调度器行为不确定,但实际运行中未报告问题。其他变更仅添加device字段,未修改现有字段,风险很小。

对用户无直接影响。对CI系统,这些测试将始终在h200_35gb上运行,避免了在h200_18gb上的OOM失败,提高了CI可靠性。同时减轻了h200_18gb队列的压力,但增加了h200_35gb的负载。

配置冲突未清理

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论