Prhub

#24080 [CI] Broaden stage-b-test-1-gpu-large runner pool to H100 + H200

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-30 03:18 文件变更 2 提交数 1 评论 2 代码增减 +5 / -2

执行摘要

扩增 CI 测试 runner 池至 H100 和 H200

扩大 stage-b-test-1-gpu-large 的 runner 池,使其在 H100 和 H200 上均可运行,以减少排队等待时间并提高 CI 资源利用率。Multimodal_gen 任务因依赖 H100 特有的硬件行为,仍限制在 H100 上运行。

推荐合并前与运维确认 1-gpu-h100-h200 标签已正确添加到对应 runner 池。本 PR 逻辑简单,不涉及代码逻辑变更,但引用了 #23505 的模式,值得团队在后续扩池时参考。

讨论亮点

本 PR 没有 review 讨论,但 PR 描述明确强调了两个要点:

1) 这一模式沿用了之前 #23505 为 4-gpu-b200-low-disk 采用的共享标签方式;
2) 在合并前需要运维人员手动将 1-gpu-h100-h200 标签添加到所有 1-GPU H100 和 H200 runner 上,否则 job 会无限排队。

实现拆解

  1. 修改 .github/workflows/pr-test.ymlstage-b-test-1-gpu-large job 的 runs-on 字段,从 1-gpu-h100 改为 1-gpu-h100-h200
  2. 更新 scripts/ci/utils/slash_command_handler.py 中的 CUDA_SUITE_TO_RUNNER 字典,将 stage-b-test-1-gpu-large 的 runner 标签也改为 1-gpu-h100-h200,保持 /rerun-stage 命令的 runner 健康检查一致性。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI 工作流 modified 3.32
scripts/ci/utils/slash_command_handler.py CI 脚本 modified 2.92

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。若 runner 端未提前添加共享标签,stage-b-test-1-gpu-large 可能永久排队,但不会影响其他 job。Multimodal_gen 的硬件特定行为不会因本次变更受影响。此外,H100 和 H200 在性能上存在差异,可能导致测试时间波动,但这是一个已知且可接受的风险。

影响范围:仅影响 CI 基础设施中的 stage-b-test-1-gpu-large job。影响程度:低到中等。正面影响:减少排队等待,提高 CI 吞吐量。负面影响:H200 可能比 H100 快/慢,导致测试时间基线变化;但 CI 通常设定超时阈值,短期波动可接受。Multimodal_gen 不受影响。

基础设施依赖 运维前置条件

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论