Prhub

#21897 [CI] Increase multimodal server test timeout from 60 to 90 minutes

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-02 11:19 文件变更 1 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

将多模态服务器测试超时从 60 分钟延长至 90 分钟,避免测试在输出结果时超时中断。

根据PR body描述,在1-GPU分区中运行的20个扩散测试总耗时约59分钟,导致测试步骤在60分钟超时中断时正在打印结果,没有为pytest摘要输出留出时间余量。这影响了CI测试的完整执行和结果收集。

该PR变更简单直接,无需深入代码审查。建议关注点:

1) 了解多模态测试耗时接近超时的根本原因,是否反映了性能瓶颈或测试用例设计问题;
2) 监控延长超时后CI任务的执行时间,确保资源使用在可接受范围内。

讨论亮点

该PR没有review评论或讨论,直接由作者合并。这表明变更简单直接,团队对调整超时以解决测试中断问题达成共识。

实现拆解

该PR仅修改了一个文件:.github/workflows/nightly-test-nvidia.yml。具体改动是将两个测试作业(GPU_CONFIG分别为"1-gpu-h100"和"2-gpu-h100")的timeout-minutes参数从60改为90。这直接延长了测试执行的最大允许时间,为测试运行和结果输出提供了更充裕的时间窗口。

文件 模块 状态 重要度
.github/workflows/nightly-test-nvidia.yml CI/Workflow modified 8.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低。主要风险是:

1) 超时延长可能掩盖潜在的性能回归问题,如果测试因性能下降而接近90分钟才完成,可能不会及时暴露问题;
2) CI资源占用时间增加,可能影响其他CI任务的调度效率。但考虑到测试本身已接近60分钟,延长超时是必要的,且变更范围仅限于CI配置,不涉及核心代码逻辑。

影响范围限于CI基础设施。对用户和系统功能无直接影响。主要影响是:

1) 确保多模态服务器测试能够完整执行并输出结果,提高CI可靠性;
2) CI任务运行时间可能增加,但这是为了保障测试完整性而接受的合理开销;
3) 团队将获得更稳定的测试反馈,减少因超时中断导致的虚假失败。

CI 资源占用增加 可能掩盖性能回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论