Prhub

#22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5

原始 PR 作者 alisonshao 合并时间 2026-04-09 07:36 文件变更 1 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

将 stage-c-test-4-gpu-b200 CI 测试分区从 4 个增加到 5 个,解决超时问题。

PR body明确指出,stage-c-test-4-gpu-b200测试套件当前有14个测试,总预估时间7010秒(116.8分钟)。在4个分区下,平均每个分区耗时29.2分钟,距离30分钟步骤超时限制仅剩不到1分钟缓冲,无法覆盖约2分钟的设置开销(依赖安装、验证),这导致分区2在测试中途超时(test_update_weights_from_disk_mxfp8.py被中断)。近期增加的3个LoRA测试(PR #21466、#21469、#21570)贡献了620秒(10.3分钟)额外时间,加剧了时间压力。

该PR变更简单直接,无需深入精读。对于关注CI优化或Blackwell测试稳定性的工程师,可参考此PR了解如何通过调整分区策略应对测试时间增长。

讨论亮点

Review中仅有一名审核者(hnyls2002)批准,未留下评论,表明变更直接且无争议。

实现拆解

仅修改了CI配置文件.github/workflows/pr-test.yml中的两个参数:

  1. 将矩阵策略中的分区索引从[0, 1, 2, 3]改为[0, 1, 2, 3, 4],增加一个分区。
  2. 将运行测试命令中的--auto-partition-size参数从4改为5,以匹配新的分区数。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI/Workflows modified 8.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:

  1. 变更仅影响CI配置,不涉及生产代码逻辑。
  2. 增加分区可能略微增加CI资源消耗(多一个并行作业),但降低了单个分区超时风险。
  3. 需确保新分区配置与测试套件兼容,但基于现有模式扩展,风险可控。

影响范围限于CI流水线:

  1. 用户无感知,不影响系统功能或性能。
  2. 对团队:减少CI超时失败,提高测试稳定性,尤其针对Blackwell B200 GPU的4-GPU测试套件。
  3. 对系统:无直接影响,仅优化测试执行策略。
CI 配置变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论