Prhub

#22267 Move ring test to nightly

原始 PR 作者 ispobock 合并时间 2026-04-07 21:56 文件变更 1 提交数 2 评论 4 代码增减 +3 / -2

执行摘要

将 Ring-2.5-1T 模型测试从常规 CI 移至夜间测试套件,并添加软看门狗超时参数。

PR正文未明确说明动机,但从代码变更和review讨论推断,主要目的是将耗时较长的Ring-2.5-1T模型测试(预估时间从1000秒增至1800秒)从常规CI流水线移至夜间测试套件,以减轻日常CI负载,避免阻塞快速反馈。关联Issue评论中触发测试失败也表明需要调整测试配置。

此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。

讨论亮点

review中仅有一条来自gemini-code-assist[bot]的评论,指出软看门狗超时应低于硬超时以实现预警功能,建议将值改为1500。但PR作者未采纳该建议,直接合并了PR,导致软超时与硬超时相同,失去预警意义。

实现拆解

仅修改了一个测试文件:

  1. 将register_cuda_ci的suite参数从"stage-c-test-8-gpu-h200"改为"nightly-8-gpu-common",并设置nightly=True,将测试移至夜间套件。
  2. 在测试启动参数列表中添加"--soft-watchdog-timeout"和"1800",与现有的"--watchdog-timeout"值相同。
  3. 将预估测试时间est_time从1000秒调整为1800秒,反映实际耗时。
文件 模块 状态 重要度
test/registered/8-gpu-models/test_ring_2_5_1t.py 测试基础设施 modified 5.0

关键符号

register_cuda_ci test_ring_2_5_1t

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

软看门狗超时值设置 设计

gemini-code-assist[bot] 指出软超时应低于硬超时以实现预警功能,建议从 1800 改为 1500。

结论:PR 作者未采纳建议,保持软硬超时均为 1800,使软超时冗余。 · 已解决

风险与影响

风险较低:

  1. 测试配置变更:将测试移至夜间套件可能延迟问题发现,但这是权衡CI速度的常规操作。
  2. 软看门狗配置不当:软超时与硬超时相同,无法提前预警,可能导致测试进程被直接终止而非优雅处理,但仅影响该特定测试。
  3. 缺少测试覆盖验证:未提及是否验证了夜间测试套件能正确运行此测试。

影响范围有限:

  1. 对用户无直接影响,仅涉及内部测试基础设施。
  2. 对系统:减少常规CI流水线耗时,优化资源使用;但夜间测试失败可能较晚被发现。
  3. 对团队:开发者在日常PR中不再运行此测试,加快CI反馈;但需依赖夜间测试来监控该模型回归。
配置不当 缺少测试验证

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论