Prhub

#22267 Move ring test to nightly

原始 PR 作者 ispobock 合并时间 2026-04-07 21:56 文件变更 1 提交数 2 评论 4 代码增减 +3 / -2

执行摘要

将 Ring-2.5-1T 模型测试从常规 CI 移至夜间测试套件,并添加软看门狗超时参数。

PR正文未明确说明动机,但从代码变更和review讨论推断,主要目的是将耗时较长的Ring-2.5-1T模型测试(预估时间从1000秒增至1800秒)从常规CI流水线移至夜间测试套件,以减轻日常CI负载,避免阻塞快速反馈。关联Issue评论中触发测试失败也表明需要调整测试配置。

此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。

讨论亮点

review中仅有一条来自gemini-code-assist[bot]的评论,指出软看门狗超时应低于硬超时以实现预警功能,建议将值改为1500。但PR作者未采纳该建议,直接合并了PR,导致软超时与硬超时相同,失去预警意义。

实现拆解

仅修改了一个测试文件:

  1. 将register_cuda_ci的suite参数从"stage-c-test-8-gpu-h200"改为"nightly-8-gpu-common",并设置nightly=True,将测试移至夜间套件。
  2. 在测试启动参数列表中添加"--soft-watchdog-timeout"和"1800",与现有的"--watchdog-timeout"值相同。
  3. 将预估测试时间est_time从1000秒调整为1800秒,反映实际耗时。
文件 模块 状态 重要度
test/registered/8-gpu-models/test_ring_2_5_1t.py 测试基础设施 modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

register_cuda_ci test_ring_2_5_1t

评论区精华

软看门狗超时值设置 设计

gemini-code-assist[bot] 指出软超时应低于硬超时以实现预警功能,建议从 1800 改为 1500。

结论:PR 作者未采纳建议,保持软硬超时均为 1800,使软超时冗余。 · 已解决

风险与影响

风险较低:

  1. 测试配置变更:将测试移至夜间套件可能延迟问题发现,但这是权衡CI速度的常规操作。
  2. 软看门狗配置不当:软超时与硬超时相同,无法提前预警,可能导致测试进程被直接终止而非优雅处理,但仅影响该特定测试。
  3. 缺少测试覆盖验证:未提及是否验证了夜间测试套件能正确运行此测试。

影响范围有限:

  1. 对用户无直接影响,仅涉及内部测试基础设施。
  2. 对系统:减少常规CI流水线耗时,优化资源使用;但夜间测试失败可能较晚被发现。
  3. 对团队:开发者在日常PR中不再运行此测试,加快CI反馈;但需依赖夜间测试来监控该模型回归。
配置不当 缺少测试验证

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:将Ring-2.5-1T模型测试从常规CI移至夜间测试套件,并添加软看门狗超时参数。
  • 推荐动作:此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。

功能与动机

PR正文未明确说明动机,但从代码变更和review讨论推断,主要目的是将耗时较长的Ring-2.5-1T模型测试(预估时间从1000秒增至1800秒)从常规CI流水线移至夜间测试套件,以减轻日常CI负载,避免阻塞快速反馈。关联Issue评论中触发测试失败也表明需要调整测试配置。

实现拆解

仅修改了一个测试文件:

  1. 将register_cuda_ci的suite参数从"stage-c-test-8-gpu-h200"改为"nightly-8-gpu-common",并设置nightly=True,将测试移至夜间套件。
  2. 在测试启动参数列表中添加"--soft-watchdog-timeout"和"1800",与现有的"--watchdog-timeout"值相同。
  3. 将预估测试时间est_time从1000秒调整为1800秒,反映实际耗时。

关键文件:

  • test/registered/8-gpu-models/test_ring_2_5_1t.py(模块 测试基础设施): 唯一修改的文件,包含测试套件迁移和超时参数调整,直接影响CI执行行为。

关键符号:register_cuda_ci, test_ring_2_5_1t

评论区精华

review中仅有一条来自gemini-code-assist[bot]的评论,指出软看门狗超时应低于硬超时以实现预警功能,建议将值改为1500。但PR作者未采纳该建议,直接合并了PR,导致软超时与硬超时相同,失去预警意义。

  • 软看门狗超时值设置 (design): PR作者未采纳建议,保持软硬超时均为1800,使软超时冗余。

风险与影响

  • 风险:风险较低:
    1. 测试配置变更:将测试移至夜间套件可能延迟问题发现,但这是权衡CI速度的常规操作。
    2. 软看门狗配置不当:软超时与硬超时相同,无法提前预警,可能导致测试进程被直接终止而非优雅处理,但仅影响该特定测试。
    3. 缺少测试覆盖验证:未提及是否验证了夜间测试套件能正确运行此测试。
  • 影响:影响范围有限:
    1. 对用户无直接影响,仅涉及内部测试基础设施。
    2. 对系统:减少常规CI流水线耗时,优化资源使用;但夜间测试失败可能较晚被发现。
    3. 对团队:开发者在日常PR中不再运行此测试,加快CI反馈;但需依赖夜间测试来监控该模型回归。
  • 风险标记:配置不当, 缺少测试验证

关联脉络

  • PR #21669 [AMD] Add Qwen3.5-397B FP8 nightly perf benchmarks for MI30x and MI35x: 同样涉及夜间测试套件的使用,展示了项目中对耗时测试迁移到夜间执行的模式。
  • PR #15236 [CI] Add consistency test in CI: 涉及CI测试配置调整,与本PR同属测试基础设施变更范畴。

参与讨论