执行摘要
- 一句话:将Ring-2.5-1T模型测试从常规CI移至夜间测试套件,并添加软看门狗超时参数。
- 推荐动作:此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。
功能与动机
PR正文未明确说明动机,但从代码变更和review讨论推断,主要目的是将耗时较长的Ring-2.5-1T模型测试(预估时间从1000秒增至1800秒)从常规CI流水线移至夜间测试套件,以减轻日常CI负载,避免阻塞快速反馈。关联Issue评论中触发测试失败也表明需要调整测试配置。
实现拆解
仅修改了一个测试文件:
- 将register_cuda_ci的suite参数从"stage-c-test-8-gpu-h200"改为"nightly-8-gpu-common",并设置nightly=True,将测试移至夜间套件。
- 在测试启动参数列表中添加"--soft-watchdog-timeout"和"1800",与现有的"--watchdog-timeout"值相同。
- 将预估测试时间est_time从1000秒调整为1800秒,反映实际耗时。
关键文件:
test/registered/8-gpu-models/test_ring_2_5_1t.py(模块 测试基础设施): 唯一修改的文件,包含测试套件迁移和超时参数调整,直接影响CI执行行为。
关键符号:register_cuda_ci, test_ring_2_5_1t
评论区精华
review中仅有一条来自gemini-code-assist[bot]的评论,指出软看门狗超时应低于硬超时以实现预警功能,建议将值改为1500。但PR作者未采纳该建议,直接合并了PR,导致软超时与硬超时相同,失去预警意义。
- 软看门狗超时值设置 (design): PR作者未采纳建议,保持软硬超时均为1800,使软超时冗余。
风险与影响
- 风险:风险较低:
- 测试配置变更:将测试移至夜间套件可能延迟问题发现,但这是权衡CI速度的常规操作。
- 软看门狗配置不当:软超时与硬超时相同,无法提前预警,可能导致测试进程被直接终止而非优雅处理,但仅影响该特定测试。
- 缺少测试覆盖验证:未提及是否验证了夜间测试套件能正确运行此测试。
- 影响:影响范围有限:
- 对用户无直接影响,仅涉及内部测试基础设施。
- 对系统:减少常规CI流水线耗时,优化资源使用;但夜间测试失败可能较晚被发现。
- 对团队:开发者在日常PR中不再运行此测试,加快CI反馈;但需依赖夜间测试来监控该模型回归。
- 风险标记:配置不当, 缺少测试验证
关联脉络
- PR #21669 [AMD] Add Qwen3.5-397B FP8 nightly perf benchmarks for MI30x and MI35x: 同样涉及夜间测试套件的使用,展示了项目中对耗时测试迁移到夜间执行的模式。
- PR #15236 [CI] Add consistency test in CI: 涉及CI测试配置调整,与本PR同属测试基础设施变更范畴。
参与讨论