Prhub

#24208 [CI] Fix stage-b-test-4-gpu-b200 silently skipped, hanging wait-for-stage-b

原始 PR 作者 Fridge003 合并时间 2026-05-01 13:29 文件变更 1 提交数 1 评论 2 代码增减 +1 / -4

执行摘要

修复 B200 CI 测试被静默跳过的问题

在 #24163 合并后,stage-b-test-4-gpu-b200 作业被静默跳过,导致 B200 相关的 CI 测试完全缺失。wait-for-stage-b 因期望计数不匹配而超时,阻塞了后续 CI 阶段。该问题已在实际 CI 运行中观察到(如 job 73890630667 显示 Progress: 26/26 jobs completed (expected 27),最终超时)。

建议快速合并。这是一个典型的 CI 回退不完整导致的 bug,修复逻辑简单且正确。对于 CI 维护者,这是个值得注意的教训:回退时应检查所有引用点。

讨论亮点

无 review 讨论。但 PR body 详细记录了根因:

  • 24163 回退时遗漏了消费端变更,导致 runs-on 指向不存在的输出,GHA 静默跳过作业。

  • wait-for-stage-b 因期望 27 个作业而永远等待。

实现拆解

  1. .github/workflows/pr-test.yml 中,将 stage-b-test-4-gpu-b200 作业的 runs-on 字段从 ${{ needs.check-changes.outputs.b200_low_disk_runner }} 改回 ${{ needs.check-changes.outputs.b200_runner }}
  2. 删除与之相关的三行注释,这些注释描述了 *-low-disk 标签的作用,因为该标签已不再被 check-changes 输出。
  3. 无其他文件变更。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI 配置 modified 3.59

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:变更仅回退一行 runs-on 引用和删除三行注释,与 check-changes 的实际输出保持一致。不涉及任何业务逻辑或运行时变更。潜在风险是如果未来再次调整运行器标签,需要同步更新此处。

直接影响:修复 CI 中 stage-b-test-4-gpu-b200 作业被跳过的问题,确保 B200 相关的 4-GPU 测试正常执行。间接影响:wait-for-stage-b 不再超时,后续 CI 阶段(如推理测试、端到端测试)能正常触发。仅影响 CI 流程,不涉及用户功能或系统性能。

CI 修复 回退不完整

关联 Issue

#23505 [CI] Broaden stage-b-test-4-gpu-b200 runner pool to low-disk label

完整报告

参与讨论