执行摘要
回退 B200 CI 测试拆分,合并为单一套件
专用低磁盘 B200 runner 已从集群中移除,原有的拆分依据不复存在,stage-c-test-4-gpu-b200-small 套件不再有效。因此需要回退拆分,简化 CI 配置并恢复测试频率。
该 PR 为常规的 CI 清理操作,值得关注的是 B200 runner 资源管理策略的演进。对于 CI 维护者,该变更合理且必要;对于一般开发者,无需深入阅读。
review 仅有一条自动生成的评论,无实质讨论。
专用低磁盘 B200 runner 已从集群中移除,原有的拆分依据不复存在,stage-c-test-4-gpu-b200-small 套件不再有效。因此需要回退拆分,简化 CI 配置并恢复测试频率。
该 PR 为常规的 CI 清理操作,值得关注的是 B200 runner 资源管理策略的演进。对于 CI 维护者,该变更合理且必要;对于一般开发者,无需深入阅读。
review 仅有一条自动生成的评论,无实质讨论。
.github/workflows/pr-test.yml 中移除 b200_low_disk_runner 输出变量和关联的逻辑,将 B200 测试统一通过 b200_runner 路由到 stage-c-test-4-gpu-b200 套件,启用 --auto-partition-size 6。同时清理了日志输出中对低磁盘 runner 的引用。 stage-c-test-4-gpu-b200-small 的 5 个测试(test_gpt_oss_4gpu、test_qwen35_fp4_mtp_v2、test_qwen35_fp4_triton、test_lora_gpt_oss_20b_logprob_diff、test_lora_nemotron_3_super_120b_a12b_logprob_diff 等)改为注册到 stage-c-test-4-gpu-b200,并根据实际运行时间上调了 est_time。 nightly-4-gpu-b200 的三个测试(test_nvidia_nemotron_3_super_nvfp4、test_fp8_blockwise_gemm、test_nvfp4_gemm)的 suite 改为 stage-c-test-4-gpu-b200,移除 nightly=True 属性,使其在每次提交时自动运行。 test_cutedsl_moe.py 等额外测试文件也随同调整了套件名称,保持一致性。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
.github/workflows/pr-test.yml |
CI 配置 | modified | 5.82 |
test/registered/4-gpu-models/test_nvidia_nemotron_3_super_nvfp4.py |
4GPU 测试 | modified | 4.26 |
test/registered/4-gpu-models/test_gpt_oss_4gpu.py |
4GPU 测试 | modified | 3.86 |
.github/workflows/pr-test.yml
infrastructure
核心 CI 配置文件,移除了低磁盘 runner 变量和相关步骤,将 B200 测试统一路由到单一套件。
# .github/workflows/pr-test.yml ( 关键变更片段 )
steps:
- name: Setup runner
id: set-runner
run: |
target_stage="${{ inputs.target_stage }}"
if [[ "$sgl_kernel" == "true" && -z "$target_stage" ]]; then
echo "b200_runner=4-gpu-b200-kernel" >> $GITHUB_OUTPUT
# 移除低磁盘 runner 输出:b200_low_disk_runner=4-gpu-b200-kernel-low-disk
else
echo "b200_runner=4-gpu-b200" >> $GITHUB_OUTPUT
# 移除低磁盘 runner 输出:b200_low_disk_runner=4-gpu-b200-low-disk
fi
# 后续的日志输出也移除了 b200_low_disk_runner 行
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
主要风险为测试资源排布变化可能导致 CI 并行超限或排队加剧,但原拆分理由(低磁盘 runner)已不存在,合并后资源用量仍在预期内。调整后的预估时间基于历史数据,应能适配新套件。若未来再次引入低磁盘 runner,需重新评估拆分逻辑。
对用户无直接影响,对 CI 系统而言简化了配置,减少了一个测试套件;3 个测试从 nightly 恢复到 per-commit,提高了回归检测频率。团队维护成本降低。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论