#42446 [CI] Migrate 6 verified jobs from gpu_1_queue to h200_18gb MIG

原始 PR 作者 khluu 合并时间 2026-05-13 02:52 文件变更 5 提交数 2 评论 1 代码增减 +5 / -0

执行摘要

将 6 个 CI 任务从 L4 迁移到 H200 MIG

利用 H200 MIG 分区的闲置算力，缓解 L4（gpu_1_queue）的资源瓶颈。PR body 指出这是将验证通过的 6 个任务迁移到 H200 18GB MIG，其余任务因 PyTorch 的 CUDACachingAllocator NVML 断言问题无法迁移。

值得关注但不需精读。该 PR 是 CI 资源优化的一部分，展示了在 MIG 分区上运行 vLLM 测试的可行性边界。Python-only Installation 任务的设备分配问题建议后续优化。

讨论亮点

Review 中 gemini-code-assist[bot] 指出：将 Python-only Installation 任务分配到 h200_18gb MIG 分区是低效的，因为该任务无需 GPU，建议迁移到 CPU-only 设备（如 cpu-small）。该评论未在后续得到作者或其他审核者回应，且 PR 最终保持原配置合并。

实现拆解

迁移 Kernels KDA Test：在 kernels.yaml 中 Kernels KDA Test 步骤添加 device: h200_18gb，该测试为纯内核测试，不涉及引擎初始化，适合 MIG 环境。
迁移 LM Eval TurboQuant KV Cache：在 lm_eval.yaml 中相应步骤添加 device: h200_18gb，使用预量化模型路径，避免重初始化引擎。
迁移 Acceptance Length Test (Large Models)：在 misc.yaml 中将原非标准字段 gpu: h100 和 num_gpus: 1 替换为 device: h200_18gb，统一设备指定方式。
迁移 Python-only Installation：在 misc.yaml 中添加 device: h200_18gb，但该任务实际无需 GPU，引发资源浪费的讨论。
迁移 Basic Models Tests (Initialization)：在 models_basic.yaml 中添加 device: h200_18gb，仅执行轻量级模型初始化子集。
迁移 Language Models Tests (Standard)：在 models_language.yaml 中添加 device: h200_18gb，执行标准语言模型的核心测试。

文件	模块	状态	重要度
`.buildkite/test_areas/models_basic.yaml`	CI 配置	modified	3.14
`.buildkite/test_areas/models_language.yaml`	CI 配置	modified	3.14
`.buildkite/test_areas/kernels.yaml`	CI 配置	modified	2.53
`.buildkite/test_areas/lm_eval.yaml`	CI 配置	modified	2.53
`.buildkite/test_areas/misc.yaml`	CI 配置	modified	2.93

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Python-only Installation 任务应使用 CPU-only 设备 性能

gemini-code-assist[bot] 指出该任务无需 GPU，分配到 h200_18gb 浪费 GPU 资源，建议使用 cpu-small。

结论：无明确结论，PR 保留原配置并合并。 · unresolved

风险与影响

低风险。变更仅涉及 CI 配置文件中设备队列的调整，无源码或测试逻辑修改。但需注意：

1) H200 MIG 分区上 PyTorch 的 NVML 断言问题可能导致后续扩展困难；
2) Python-only Installation 任务占用 GPU 资源造成浪费。

对开发者无直接影响。CI 构建将部分任务从 L4 迁移到 H200 MIG，可缓解 L4 队列压力，但 MIG 分区已知存在 NVML 兼容性问题，长期可靠性需观察。

资源浪费（Python-only 任务占用 GPU） MIG 兼容性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该 PR 将 6 个已在 H200 18GB MIG 分区上验证通过的 CI 测试任务从 L4（gpu_1_queue）迁移到 h200_18gb 设备队列，以缓解 L4 资源瓶颈。同时修复了 Acceptance Length Test 中非标准的设备字段用法。由于 PyTorch 的 CUDACachingAllocator NVML 断言问题，其余约 47 个任务暂无法迁移。

功能与动机

PR body 明确指出，目的是利用 H200 MIG 分区的闲置算力，将已验证通过的 6 个任务迁移到该分区。迁移前已在 Build #65789 上完成验证。核心限制是 PyTorch 的 CUDA 内存分配器在 MIG 分区上会触发 NVML 断言失败，影响大部分需要初始化引擎的任务。

实现拆解

纯内核测试（Kernels KDA Test）：在 kernels.yaml 中添加 device: h200_18gb，该测试不涉及引擎初始化，最适合 MIG 环境。
预量化模型评测（LM Eval TurboQuant KV Cache）：在 lm_eval.yaml 中添加 device: h200_18gb，使用预量化模型路径，避免重新初始化引擎。
非标准字段修复（Acceptance Length Test）：在 misc.yaml 中将原来的 gpu: h100 和 num_gpus: 1 替换为 device: h200_18gb，统一设备指定方式。
无需 GPU 的安装检查（Python-only Installation）：在 misc.yaml 中添加 device: h200_18gb，但该任务无需 GPU，引发资源浪费的讨论。
轻量级初始化测试（Basic Models Tests）：在 models_basic.yaml 中添加 device: h200_18gb，仅运行模型初始化测试的小子集。
核心语言模型测试（Language Models Tests）：在 models_language.yaml 中添加 device: h200_18gb，运行标准语言模型的核心测试。

评论区精华

gemini-code-assist[bot]：Python-only Installation 任务无需 GPU，分配到 h200_18gb 浪费资源，建议迁移到 CPU-only 设备（如 cpu-small）。

该评论未在 PR 中得到作者或维护者的回复，最终 PR 保持原配置合并。

风险与影响

资源浪费：Python-only Installation 任务占用 H200 MIG 分区，属于昂贵的 GPU 资源浪费。
MIG 兼容性风险：PyTorch 的 NVML 断言问题意味着未来扩展需慎重选择任务类型，仅纯内核测试或预量化模型评测适合 MIG 环境。
影响范围：仅 CI 配置文件变更，对用户无直接影响。可缓解 L4 队列压力，但长期可靠性和效率需持续观察。

关联脉络

该 PR 与 #42401（MIG 分区兼容性分析）密切相关，前者提供了 NVML 断言失败的完整分析，决定了本次迁移的范围。后续可能继续探索如何解决 MIG 上的兼容性问题，以扩大迁移范围。

#42446 [CI] Migrate 6 verified jobs from gpu_1_queue to h200_18gb MIG

执行摘要

将 6 个 CI 任务从 L4 迁移到 H200 MIG

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论