#22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5

原始 PR 作者 alisonshao 合并时间 2026-04-09 07:36 文件变更 1 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

将 stage-c-test-4-gpu-b200 CI 测试分区从 4 个增加到 5 个，解决超时问题。

PR body明确指出，stage-c-test-4-gpu-b200测试套件当前有14个测试，总预估时间7010秒（116.8分钟）。在4个分区下，平均每个分区耗时29.2分钟，距离30分钟步骤超时限制仅剩不到1分钟缓冲，无法覆盖约2分钟的设置开销（依赖安装、验证），这导致分区2在测试中途超时（test_update_weights_from_disk_mxfp8.py被中断）。近期增加的3个LoRA测试（PR #21466、#21469、#21570）贡献了620秒（10.3分钟）额外时间，加剧了时间压力。

该PR变更简单直接，无需深入精读。对于关注CI优化或Blackwell测试稳定性的工程师，可参考此PR了解如何通过调整分区策略应对测试时间增长。

讨论亮点

Review中仅有一名审核者（hnyls2002）批准，未留下评论，表明变更直接且无争议。

实现拆解

仅修改了CI配置文件.github/workflows/pr-test.yml中的两个参数：

将矩阵策略中的分区索引从[0, 1, 2, 3]改为[0, 1, 2, 3, 4]，增加一个分区。
将运行测试命令中的--auto-partition-size参数从4改为5，以匹配新的分区数。

文件	模块	状态	重要度
`.github/workflows/pr-test.yml`	CI/Workflows	modified	8.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低：

变更仅影响CI配置，不涉及生产代码逻辑。
增加分区可能略微增加CI资源消耗（多一个并行作业），但降低了单个分区超时风险。
需确保新分区配置与测试套件兼容，但基于现有模式扩展，风险可控。

影响范围限于CI流水线：

用户无感知，不影响系统功能或性能。
对团队：减少CI超时失败，提高测试稳定性，尤其针对Blackwell B200 GPU的4-GPU测试套件。
对系统：无直接影响，仅优化测试执行策略。

CI 配置变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR将GitHub Actions中stage-c-test-4-gpu-b200测试套件的分区数量从4个增加到5个，以解决因测试时间增长导致的CI步骤超时问题。变更仅涉及CI配置文件，通过降低每个分区的平均执行时间（从29.2分钟降至23.4分钟），为设置开销提供约6分钟缓冲，从而提升Blackwell B200 GPU上4-GPU测试的稳定性。

功能与动机

为什么做：近期新增的3个LoRA测试（PR #21466、#21469、#21570）使stage-c-test-4-gpu-b200套件总预估时间达到7010秒（116.8分钟）。在原有4个分区下，平均每个分区耗时29.2分钟，接近30分钟步骤超时限制，无法覆盖约2分钟的设置开销（依赖安装、验证），导致分区2超时中断。

关键数据：

新增LoRA测试贡献620秒（10.3分钟）。
4分区时平均耗时29.2分钟/分区，缓冲不足1分钟。
5分区时平均耗时23.4分钟/分区，缓冲约6分钟。

实现拆解

仅修改一个文件：.github/workflows/pr-test.yml。

变更位置	原值	新值	作用
矩阵策略 `part`	`[0, 1, 2, 3]`	`[0, 1, 2, 3, 4]`	增加一个分区索引
运行命令 `--auto-partition-size`	`4`	`5`	匹配新分区数

变更后，测试套件将被均匀分配到5个并行作业中执行，每个作业时间压力显著降低。

评论区精华

Review过程简单直接：

审核者 hnyls2002 直接批准，未留下评论。
表明变更逻辑清晰，无技术争议，属于常规CI优化。

风险与影响

风险分析：

低风险：仅修改CI配置，不触及生产代码，回归风险可忽略。
资源消耗：增加一个并行作业可能略微提升CI资源使用，但通过避免超时重试，整体效率可能提升。
兼容性：分区逻辑基于现有run_suite.py脚本，扩展分区数属于支持范围内操作。

影响评估：

对用户：无感知，不影响系统功能或性能。
对团队：减少CI超时失败，提高测试可靠性，尤其保障Blackwell B200 GPU上关键测试的连续执行。
对系统：无直接影响，仅优化测试执行策略。

关联脉络

相关PR：

PR #21466、#21469、#21570：新增LoRA测试，导致测试时间增长，是本PR的直接诱因。
PR #22346：通过设置内存限制解决测试超时，与本PR同属CI优化范畴，展示不同维度的调优手段。
PR #22237：通过降低准确度阈值减少CI误报，与本PR共同体现团队对CI稳定性的持续改进。

演进趋势：

随着模型测试复杂度增加（如LoRA、多GPU、Blackwell支持），测试时间压力上升，CI配置需动态调整。
本PR是典型的“响应式”优化，通过增加分区应对时间增长，未来可能需更系统化的测试时间监控与自动分区策略。

#22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5

执行摘要

将 stage-c-test-4-gpu-b200 CI 测试分区从 4 个增加到 5 个，解决超时问题。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论