Prhub

#24495 ci: drop 1-gpu-h100-h200 shared label

原始 PR 作者 alisonshao 合并时间 2026-05-06 16:02 文件变更 3 提交数 1 评论 0 代码增减 +2 / -6

执行摘要

移除已退役的 H200 共享 runner 标签

1-GPU H200 runner 池已退役,共享标签 1-gpu-h100-h200 仅剩 8 个 runner,导致 stage-b-test-1-gpu-large 等工作被限制在这些 runner 上,无法利用完整的约 32 个 1-GPU H100 runner,造成 CI 瓶颈。

可安全合并。无需要精读的代码设计决策,但可作为 CI 维护的参考案例,了解如何清理退役基础设施。

讨论亮点

无实质讨论;Fridge003 直接批准,gemini-code-assist 机器人无反馈。

实现拆解

  1. 修改 CI 工作流配置:在 .github/workflows/pr-test.yml 中将 stage-b-test-1-gpu-largeruns-on1-gpu-h100-h200 改为 1-gpu-h100
  2. 更新重跑命令映射:在 scripts/ci/utils/slash_command_handler.py 中将 stage-b-test-1-gpu-large 的 runner 映射从 1-gpu-h100-h200 改为 1-gpu-h100
  3. 清理重跑工作流选项:在 .github/workflows/rerun-test.ymlrunner-label 下拉选项中移除 1-gpu-h100-h200
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI modified 3.19
scripts/ci/utils/slash_command_handler.py CI 工具 modified 2.55
.github/workflows/rerun-test.yml CI modified 1.84

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。变更仅限于 CI 标签字符串替换和选项移除,不涉及任何运行时逻辑。如果 H100 runner 池也退役,需要再次更新,但当前没有此迹象。

影响范围仅限于 CI 调度:stage-b-test-1-gpu-large 将调度到完整的 1-GPU H100 集群(约 32 个 runner),而非之前仅 8 个的共享池,预期可缓解 CI 排队瓶颈。对产品功能无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论