Prhub

#22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5

sgl-project/sglang · 作者 alisonshao · 合并时间 2026-04-09 07:36

分析状态 已生成
文件变更 1提交数 1 · 评论 1
代码增减 +2 / -2
run-ci test

执行摘要

将 stage-c-test-4-gpu-b200 CI 测试分区从 4 个增加到 5 个,解决超时问题。

PR body明确指出,stage-c-test-4-gpu-b200测试套件当前有14个测试,总预估时间7010秒(116.8分钟)。在4个分区下,平均每个分区耗时29.2分钟,距离30分钟步骤超时限制仅剩不到1分钟缓冲,无法覆盖约2分钟的设置开销(依赖安装、验证),这导致分区2在测试中途超时(test_update_weights_from_disk_mxfp8.py被中断)。近期增加的3个LoRA测试(PR #21466、#21469、#21570)贡献了620秒(10.3分钟)额外时间,加剧了时间压力。

该PR变更简单直接,无需深入精读。对于关注CI优化或Blackwell测试稳定性的工程师,可参考此PR了解如何通过调整分区策略应对测试时间增长。

讨论亮点

Review中仅有一名审核者(hnyls2002)批准,未留下评论,表明变更直接且无争议。

实现拆解

仅修改了CI配置文件.github/workflows/pr-test.yml中的两个参数:

  1. 将矩阵策略中的分区索引从[0, 1, 2, 3]改为[0, 1, 2, 3, 4],增加一个分区。
  2. 将运行测试命令中的--auto-partition-size参数从4改为5,以匹配新的分区数。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI/Workflows modified 8.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:

  1. 变更仅影响CI配置,不涉及生产代码逻辑。
  2. 增加分区可能略微增加CI资源消耗(多一个并行作业),但降低了单个分区超时风险。
  3. 需确保新分区配置与测试套件兼容,但基于现有模式扩展,风险可控。

影响范围限于CI流水线:

  1. 用户无感知,不影响系统功能或性能。
  2. 对团队:减少CI超时失败,提高测试稳定性,尤其针对Blackwell B200 GPU的4-GPU测试套件。
  3. 对系统:无直接影响,仅优化测试执行策略。
CI 配置变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR将GitHub Actions中stage-c-test-4-gpu-b200测试套件的分区数量从4个增加到5个,以解决因测试时间增长导致的CI步骤超时问题。变更仅涉及CI配置文件,通过降低每个分区的平均执行时间(从29.2分钟降至23.4分钟),为设置开销提供约6分钟缓冲,从而提升Blackwell B200 GPU上4-GPU测试的稳定性。

功能与动机

为什么做:近期新增的3个LoRA测试(PR #21466、#21469、#21570)使stage-c-test-4-gpu-b200套件总预估时间达到7010秒(116.8分钟)。在原有4个分区下,平均每个分区耗时29.2分钟,接近30分钟步骤超时限制,无法覆盖约2分钟的设置开销(依赖安装、验证),导致分区2超时中断

关键数据

  • 新增LoRA测试贡献620秒(10.3分钟)。
  • 4分区时平均耗时29.2分钟/分区,缓冲不足1分钟。
  • 5分区时平均耗时23.4分钟/分区,缓冲约6分钟。

实现拆解

仅修改一个文件:.github/workflows/pr-test.yml

变更位置 原值 新值 作用
矩阵策略 part [0, 1, 2, 3] [0, 1, 2, 3, 4] 增加一个分区索引
运行命令 --auto-partition-size 4 5 匹配新分区数

变更后,测试套件将被均匀分配到5个并行作业中执行,每个作业时间压力显著降低。

评论区精华

Review过程简单直接:

  • 审核者 hnyls2002 直接批准,未留下评论。
  • 表明变更逻辑清晰,无技术争议,属于常规CI优化。

风险与影响

风险分析

  1. 低风险:仅修改CI配置,不触及生产代码,回归风险可忽略。
  2. 资源消耗:增加一个并行作业可能略微提升CI资源使用,但通过避免超时重试,整体效率可能提升。
  3. 兼容性:分区逻辑基于现有run_suite.py脚本,扩展分区数属于支持范围内操作。

影响评估

  • 对用户:无感知,不影响系统功能或性能。
  • 对团队:减少CI超时失败,提高测试可靠性,尤其保障Blackwell B200 GPU上关键测试的连续执行。
  • 对系统:无直接影响,仅优化测试执行策略。

关联脉络

相关PR

  1. PR #21466、#21469、#21570:新增LoRA测试,导致测试时间增长,是本PR的直接诱因。
  2. PR #22346:通过设置内存限制解决测试超时,与本PR同属CI优化范畴,展示不同维度的调优手段。
  3. PR #22237:通过降低准确度阈值减少CI误报,与本PR共同体现团队对CI稳定性的持续改进。

演进趋势

  • 随着模型测试复杂度增加(如LoRA、多GPU、Blackwell支持),测试时间压力上升,CI配置需动态调整。
  • 本PR是典型的“响应式”优化,通过增加分区应对时间增长,未来可能需更系统化的测试时间监控与自动分区策略。

参与讨论