执行摘要
- 一句话:28个CI测试从gpu_1_queue迁移到h200_35gb
- 推荐动作:建议跟进清理
misc.yaml中的遗留gpu: h100字段,避免后续冲突。此外,可考虑对类似的配置进行统一审查,确保硬件分配清晰。
功能与动机
这些测试在h200_18gb (1g.18gb MIG)上出现OOM失败,但在h200_35gb (1g.35gb MIG)上全部通过(见build #66777)。需要将测试路由到更大的GPU分片以维持CI稳定性。
实现拆解
- 预验证:在h200_35gb队列的build #66777上运行28个候选测试,全部通过。
- OOM确认:同一批测试在h200_18gb队列的build #66798上运行,25/28因内存不足失败。
- 修改配置:在
.buildkite/test_areas/下的12个YAML文件中,为对应的测试步骤添加device: h200_35gb行。受影响文件包括models_multimodal.yaml(5处)、models_basic.yaml(4处)、model_runner_v2.yaml(3处)、models_language.yaml(3处)等。
- 遗留问题:在
misc.yaml中,对"Acceptance Length Test (Large Models)"步骤同时设置了device: h200_35gb和gpu: h100,存在调度冲突隐患,尚未清理。
关键文件:
.buildkite/test_areas/models_multimodal.yaml(模块 CI配置;类别 config;类型 configuration): 修改了5处,是本次变更最多的文件,涉及多模态模型测试步骤
.buildkite/test_areas/models_basic.yaml(模块 CI配置;类别 config;类型 configuration): 修改了4处,涉及基础模型测试
.buildkite/test_areas/model_runner_v2.yaml(模块 CI配置;类别 config;类型 configuration): 修改了3处,涉及V2模型运行器测试
.buildkite/test_areas/models_language.yaml(模块 CI配置;类别 config;类型 configuration): 修改了3处,涉及语言模型测试
关键符号:未识别
评论区精华
唯一的review评论来自gemini-code-assist[bot],指出.buildkite/test_areas/misc.yaml中新增的device字段与已有的gpu: h100字段冲突,可能导致调度问题。该问题在PR中未解决,需要后续清理。
- misc.yaml 中 device 与 gpu 字段冲突 (other): 未在本次 PR 中解决;PR 合并后仍保留 gpu: h100,需后续清理。
风险与影响
- 风险:风险较低。主要风险是
misc.yaml中同时指定device和gpu可能导致BuildKite调度器行为不确定,但实际运行中未报告问题。其他变更仅添加device字段,未修改现有字段,风险很小。
- 影响:对用户无直接影响。对CI系统,这些测试将始终在h200_35gb上运行,避免了在h200_18gb上的OOM失败,提高了CI可靠性。同时减轻了h200_18gb队列的压力,但增加了h200_35gb的负载。
- 风险标记:配置冲突未清理
关联脉络
参与讨论