Prhub

#23505 [CI] Broaden stage-b-test-4-gpu-b200 runner pool to low-disk label

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-23 08:14 文件变更 1 提交数 3 评论 6 代码增减 +4 / -1

执行摘要

扩展 CI 中 B200 测试任务的 runner 选择范围,支持低磁盘标签以提升调度弹性。

根据PR描述,目的是将stage-b-test-4-gpu-b200任务的runner选择范围从特定的b200_runner(对应4-gpu-b200/4-gpu-b200-kernel标签)扩展到b200_low_disk_runner(对应4-gpu-b200-low-disk/4-gpu-b200-kernel-low-disk标签)。*-low-disk标签同时被现有的大磁盘B200 runner和新引入的低磁盘runner所支持,因此该任务现在可以落在任一资源池中,这与同一工作流中已分区的B200任务模式保持一致,旨在提高CI资源的利用率和任务调度弹性。

该PR变更简单直接,主要涉及CI配置调整。对于关注CI基础设施或B200测试环境的工程师,可以快速浏览以了解runner标签的使用策略;对于其他开发者,无需深入阅读。

讨论亮点

PR的评论中没有review讨论,只有作者执行/rerun-stage命令触发CI运行和bot的响应。这表明变更可能较为直接,或已在团队内部达成共识。

实现拆解

  1. 核心配置变更:修改.github/workflows/pr-test.yml文件中stage-b-test-4-gpu-b200任务的runs-on字段,从引用needs.check-changes.outputs.b200_runner变量改为引用needs.check-changes.outputs.b200_low_disk_runner变量。
  2. 测试与验证:提交历史显示,作者先临时硬编码runner标签为4-gpu-b200-low-disk-test进行测试,验证新低磁盘runner池的功能,随后恢复为使用变量引用,确保任务能正常回退到内核/非内核的常规拆分逻辑。
  3. 配套改动:无其他源码、测试或文档改动,变更仅限于CI工作流配置。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI 配置 modified 3.19

关键源码片段

.github/workflows/pr-test.yml configuration

这是唯一被修改的文件,直接定义了 CI 工作流中 B200 测试任务的 runner 选择逻辑。

# 在 pr-test.yml 的 jobs 部分,stage-b-test-4-gpu-b200 任务配置:
stage-b-test-4-gpu-b200:
  # ... 其他配置 ...
  # 条件判断:仅当主包或 sgl-kernel 有变更时才运行此任务
  if: ((needs.check-changes.outputs.main_package == 'true') || (needs.check-changes.outputs.sgl_kernel == 'true'))
  # 关键变更:将 runs-on 从 b200_runner 改为 b200_low_disk_runner
  # b200_low_disk_runner 变量解析为 `4-gpu-b200-low-disk` 或 `4-gpu-b200-kernel-low-disk` 标签
  # 这些标签同时被现有的大磁盘 B200 runner 和新引入的低磁盘 runner 支持,因此任务可以落在任一资源池
  runs-on: ${{ needs.check-changes.outputs.b200_low_disk_runner }}
  timeout-minutes: 240
  strategy:
    fail-fast: false
  # ... 后续步骤 ...

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。变更仅影响CI runner的标签选择,不涉及业务逻辑。潜在风险包括:

1) 如果低磁盘runner的磁盘空间不足,可能导致构建或测试失败(但PR描述指出*-low-disk标签也被大磁盘runner支持,因此有回退机制)。
2) 变量b200_low_disk_runner必须在CI上下文中正确定义,否则任务可能无法找到合适的runner。

影响范围有限。直接影响CI系统中的stage-b-test-4-gpu-b200任务,使其能够使用更广泛的runner资源池,可能提高任务调度成功率和资源利用率。对用户、系统核心功能或团队开发流程无直接影响。

配置依赖风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论