Prhub

#42356 [CI] Migrate more B200 jobs to b200-k8s queue

原始 PR 作者 khluu 合并时间 2026-05-12 15:38 文件变更 3 提交数 2 评论 0 代码增减 +4 / -4

执行摘要

迁移 4 个 B200 CI 任务到新 k8s 队列

将 B200 CI 任务迁移到 k8s 队列,以统一基础设施、提升调度效率和运维一致性。PR body 指出这 4 个任务已在 build #65711 中通过 b200-k8s 队列验证,剩余 3 个任务因预置失败留待 #42387 处理。

该 PR 属常规基础设施迁移,技术复杂度低。建议关注后续 PR #42387 中剩余 3 个任务的迁移和测试修复。

讨论亮点

该 PR 没有人工 review 评论,仅有 bot 自动评论。gemini-code-assist[bot] 指出无反馈。

实现拆解

  1. 修改 CI 配置文件中的设备标签:在三个 YAML 文件中将 device: b200 改为 device: b200-k8s
    - .buildkite/test_areas/lm_eval.yaml:迁移 MoE Refactor Integration Test (B200 DP - TEMPORARY)GPQA Eval (GPT-OSS) (B200)
    - .buildkite/test_areas/kernels.yaml:迁移 Kernels FusedMoE Layer Test (2 B200s)
    - .buildkite/test_areas/spec_decode.yaml:迁移 Spec Decode MTP hybrid (B200)
  2. 缩窄变更范围:第一个 commit 原本迁移了 7 个任务,第二个 commit 回退了 3 个因预置失败的任务,仅保留 4 个已验证的任务。
  3. 验证:在 build #65711 中通过 NOAUTO=1 触发验证,所有 4 个任务在 b200-k8s 队列上通过。
文件 模块 状态 重要度
.buildkite/test_areas/lm_eval.yaml CI 配置 modified 3.41
.buildkite/test_areas/kernels.yaml CI 配置 modified 3.12
.buildkite/test_areas/spec_decode.yaml CI 配置 modified 3.12

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:

  • 仅修改 CI 配置文件中的 device 标签,不影响任何源码逻辑。
  • 4 个任务均已在新队列上通过验证(build #65711)。
  • 变更回退了 3 个有预置失败的任务,避免影响 CI 稳定性。

用户/系统:无直接影响;开发者 CI 体验不变。
CI 团队:B200 任务逐步迁移到 k8s 队列,有助于统一基础设施。
范围:仅 4 个 B200 测试任务,影响面小。

仅配置变更 已验证通过

关联 Issue

#42387 [CI] Migrate remaining B200 jobs to b200-k8s with test fixes

完整报告

参与讨论