#24080 [CI] Broaden stage-b-test-1-gpu-large runner pool to H100 + H200

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-30 03:18 文件变更 2 提交数 1 评论 2 代码增减 +5 / -2

执行摘要

扩增 CI 测试 runner 池至 H100 和 H200

扩大 stage-b-test-1-gpu-large 的 runner 池，使其在 H100 和 H200 上均可运行，以减少排队等待时间并提高 CI 资源利用率。Multimodal_gen 任务因依赖 H100 特有的硬件行为，仍限制在 H100 上运行。

推荐合并前与运维确认 1-gpu-h100-h200 标签已正确添加到对应 runner 池。本 PR 逻辑简单，不涉及代码逻辑变更，但引用了 #23505 的模式，值得团队在后续扩池时参考。

讨论亮点

本 PR 没有 review 讨论，但 PR 描述明确强调了两个要点：

1) 这一模式沿用了之前 #23505 为 4-gpu-b200-low-disk 采用的共享标签方式；
2) 在合并前需要运维人员手动将 1-gpu-h100-h200 标签添加到所有 1-GPU H100 和 H200 runner 上，否则 job 会无限排队。

实现拆解

修改 .github/workflows/pr-test.yml 中 stage-b-test-1-gpu-large job 的 runs-on 字段，从 1-gpu-h100 改为 1-gpu-h100-h200。
更新 scripts/ci/utils/slash_command_handler.py 中的 CUDA_SUITE_TO_RUNNER 字典，将 stage-b-test-1-gpu-large 的 runner 标签也改为 1-gpu-h100-h200，保持 /rerun-stage 命令的 runner 健康检查一致性。

文件	模块	状态	重要度
`.github/workflows/pr-test.yml`	CI 工作流	modified	3.32
`scripts/ci/utils/slash_command_handler.py`	CI 脚本	modified	2.92

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

低风险。若 runner 端未提前添加共享标签，stage-b-test-1-gpu-large 可能永久排队，但不会影响其他 job。Multimodal_gen 的硬件特定行为不会因本次变更受影响。此外，H100 和 H200 在性能上存在差异，可能导致测试时间波动，但这是一个已知且可接受的风险。

影响范围：仅影响 CI 基础设施中的 stage-b-test-1-gpu-large job。影响程度：低到中等。正面影响：减少排队等待，提高 CI 吞吐量。负面影响：H200 可能比 H100 快/慢，导致测试时间基线变化；但 CI 通常设定超时阈值，短期波动可接受。Multimodal_gen 不受影响。

基础设施依赖运维前置条件

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次 PR 将 CI 中 stage-b-test-1-gpu-large job 的 runner 标签从 1-gpu-h100 切换为共享标签 1-gpu-h100-h200，使其能被 H100 或 H200 1-GPU runner 承接，从而扩大 runner 池，减少排队等待。同时更新斜杠命令处理器中的对应映射。Multimodal_gen 相关 job 保持 1-gpu-h100 标签不变，以避免硬件差异带来的不稳定。

功能与动机

PR 目标是扩大 stage-b-test-1-gpu-large 的 runner 池，使其在 H100 和 H200 上均可运行，以减少排队等待时间并提高 CI 资源利用率。这一模式沿用了 #23505 为 4-gpu-b200-low-disk 采用的共享标签方式。Multimodal_gen 因依赖 H100 特有的硬件行为，仍限制在 H100 上。

实现拆解

修改 pr-test.yml 中的 runner 标签：在 .github/workflows/pr-test.yml 文件中，将 stage-b-test-1-gpu-large job 的 runs-on 字段从 1-gpu-h100 改为 1-gpu-h100-h200。该变更仅影响一个 job，其他 job 标签不变。
更新斜杠命令处理器的映射：在 scripts/ci/utils/slash_command_handler.py 中，将 CUDA_SUITE_TO_RUNNER 字典中 stage-b-test-1-gpu-large 对应的标签值也改为 1-gpu-h100-h200。这样可以确保 /rerun-stage stage-b-test-1-gpu-large 命令的 runner 健康检查与新的标签一致。

无可用源码片段。

评论区精华

本 PR 没有 review 讨论。但 PR 描述中提到，合并前需要运维人员手动将 1-gpu-h100-h200 标签添加到所有 1-GPU H100 和 H200 runner 上，否则 job 会无限排队。

风险与影响

风险：

若 runner 端未提前添加共享标签，stage-b-test-1-gpu-large 会永久排队，但不影响其他 job。
H100 和 H200 在性能上存在差异，可能导致测试时间波动，但这是一个已知且可接受的风险。

影响：

范围：仅影响 stage-b-test-1-gpu-large 一个 CI job。
程度：正面影响是减少排队等待，提高 CI 吞吐量；负面影响是测试时间基线可能因 runner 而异。
- Multimodal_gen 相关 job 不受影响。

关联脉络

本 PR 遵循了 #23505 引入的共享标签模式。在 #23505 中，4-gpu-b200-low-disk 标签被同时应用到旧和新 b200 runner 上，实现了类似的扩池效果。

#24080 [CI] Broaden stage-b-test-1-gpu-large runner pool to H100 + H200

执行摘要

扩增 CI 测试 runner 池至 H100 和 H200

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论