Prhub

#42446 [CI] Migrate 6 verified jobs from gpu_1_queue to h200_18gb MIG

原始 PR 作者 khluu 合并时间 2026-05-13 02:52 文件变更 5 提交数 2 评论 1 代码增减 +5 / -0

执行摘要

将 6 个 CI 任务从 L4 迁移到 H200 MIG

利用 H200 MIG 分区的闲置算力,缓解 L4(gpu_1_queue)的资源瓶颈。PR body 指出这是将验证通过的 6 个任务迁移到 H200 18GB MIG,其余任务因 PyTorch 的 CUDACachingAllocator NVML 断言问题无法迁移。

值得关注但不需精读。该 PR 是 CI 资源优化的一部分,展示了在 MIG 分区上运行 vLLM 测试的可行性边界。Python-only Installation 任务的设备分配问题建议后续优化。

讨论亮点

Review 中 gemini-code-assist[bot] 指出:将 Python-only Installation 任务分配到 h200_18gb MIG 分区是低效的,因为该任务无需 GPU,建议迁移到 CPU-only 设备(如 cpu-small)。该评论未在后续得到作者或其他审核者回应,且 PR 最终保持原配置合并。

实现拆解

  1. 迁移 Kernels KDA Test:在 kernels.yaml 中 Kernels KDA Test 步骤添加 device: h200_18gb,该测试为纯内核测试,不涉及引擎初始化,适合 MIG 环境。
  2. 迁移 LM Eval TurboQuant KV Cache:在 lm_eval.yaml 中相应步骤添加 device: h200_18gb,使用预量化模型路径,避免重初始化引擎。
  3. 迁移 Acceptance Length Test (Large Models):在 misc.yaml 中将原非标准字段 gpu: h100num_gpus: 1 替换为 device: h200_18gb,统一设备指定方式。
  4. 迁移 Python-only Installation:在 misc.yaml 中添加 device: h200_18gb,但该任务实际无需 GPU,引发资源浪费的讨论。
  5. 迁移 Basic Models Tests (Initialization):在 models_basic.yaml 中添加 device: h200_18gb,仅执行轻量级模型初始化子集。
  6. 迁移 Language Models Tests (Standard):在 models_language.yaml 中添加 device: h200_18gb,执行标准语言模型的核心测试。
文件 模块 状态 重要度
.buildkite/test_areas/models_basic.yaml CI 配置 modified 3.14
.buildkite/test_areas/models_language.yaml CI 配置 modified 3.14
.buildkite/test_areas/kernels.yaml CI 配置 modified 2.53
.buildkite/test_areas/lm_eval.yaml CI 配置 modified 2.53
.buildkite/test_areas/misc.yaml CI 配置 modified 2.93

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Python-only Installation 任务应使用 CPU-only 设备 性能

gemini-code-assist[bot] 指出该任务无需 GPU,分配到 h200_18gb 浪费 GPU 资源,建议使用 cpu-small。

结论:无明确结论,PR 保留原配置并合并。 · unresolved

风险与影响

低风险。变更仅涉及 CI 配置文件中设备队列的调整,无源码或测试逻辑修改。但需注意:

1) H200 MIG 分区上 PyTorch 的 NVML 断言问题可能导致后续扩展困难;
2) Python-only Installation 任务占用 GPU 资源造成浪费。

对开发者无直接影响。CI 构建将部分任务从 L4 迁移到 H200 MIG,可缓解 L4 队列压力,但 MIG 分区已知存在 NVML 兼容性问题,长期可靠性需观察。

资源浪费(Python-only 任务占用 GPU) MIG 兼容性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论