#24495 ci: drop 1-gpu-h100-h200 shared label

原始 PR 作者 alisonshao 合并时间 2026-05-06 16:02 文件变更 3 提交数 1 评论 0 代码增减 +2 / -6

执行摘要

移除已退役的 H200 共享 runner 标签

1-GPU H200 runner 池已退役，共享标签 1-gpu-h100-h200 仅剩 8 个 runner，导致 stage-b-test-1-gpu-large 等工作被限制在这些 runner 上，无法利用完整的约 32 个 1-GPU H100 runner，造成 CI 瓶颈。

可安全合并。无需要精读的代码设计决策，但可作为 CI 维护的参考案例，了解如何清理退役基础设施。

讨论亮点

无实质讨论；Fridge003 直接批准，gemini-code-assist 机器人无反馈。

实现拆解

修改 CI 工作流配置：在 .github/workflows/pr-test.yml 中将 stage-b-test-1-gpu-large 的 runs-on 从 1-gpu-h100-h200 改为 1-gpu-h100。
更新重跑命令映射：在 scripts/ci/utils/slash_command_handler.py 中将 stage-b-test-1-gpu-large 的 runner 映射从 1-gpu-h100-h200 改为 1-gpu-h100。
清理重跑工作流选项：在 .github/workflows/rerun-test.yml 的 runner-label 下拉选项中移除 1-gpu-h100-h200。

文件	模块	状态	重要度
`.github/workflows/pr-test.yml`	CI	modified	3.19
`scripts/ci/utils/slash_command_handler.py`	CI 工具	modified	2.55
`.github/workflows/rerun-test.yml`	CI	modified	1.84

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低。变更仅限于 CI 标签字符串替换和选项移除，不涉及任何运行时逻辑。如果 H100 runner 池也退役，需要再次更新，但当前没有此迹象。

影响范围仅限于 CI 调度：stage-b-test-1-gpu-large 将调度到完整的 1-GPU H100 集群（约 32 个 runner），而非之前仅 8 个的共享池，预期可缓解 CI 排队瓶颈。对产品功能无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

#24495 ci: drop 1-gpu-h100-h200 shared label

执行摘要

移除已退役的 H200 共享 runner 标签

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

无需展示，变更均为简单的字符串替换和选项移除。

评论区精华

风险与影响

关联脉络

参与讨论