Prhub

#21516 [CI] Fix nemotron nvfp4 test estimated time

原始 PR 作者 Fridge003 合并时间 2026-03-27 12:53 文件变更 1 提交数 1 评论 1 代码增减 +1 / -1

执行摘要

修复 NVIDIA Nemotron 3 Super NVFP4 模型 CI 测试超时,将估计时间从 300 秒增加至 600 秒。

PR body 中链接到 GitHub Actions 运行(https://github.com/sgl-project/sglang/actions/runs/23623717495/job/68827833526?pr=20904),显示测试超时,因此需要修复以避免 CI 失败。

该 PR 变更简单,无需精读,可作为 CI 维护的参考。关注点:测试超时调整的合理性,建议后续监控测试执行时间以调查根本原因,确保不是性能回归。

讨论亮点

无 review 评论或讨论,PR 直接由作者合并,表明变更简单且无争议。

实现拆解

仅修改一个文件:test/registered/4-gpu-models/test_nvidia_nemotron_3_super_nvfp4.py。关键改动是将 register_cuda_ci(est_time=300, suite="stage-c-test-4-gpu-b200") 改为 register_cuda_ci(est_time=600, suite="stage-c-test-4-gpu-b200"),将估计时间增加一倍以避免超时。

文件 模块 状态 重要度
test/registered/4-gpu-models/test_nvidia_nemotron_3_super_nvfp4.py test modified 2.0

关键符号

register_cuda_ci

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:变更仅影响 CI 测试配置,不涉及生产代码逻辑。潜在风险是增加估计时间可能掩盖测试执行缓慢的根本原因,如模型性能退化、资源不足或测试不稳定性,导致问题未被及时识别。

影响范围有限:仅针对 NVIDIA Nemotron 3 Super NVFP4 模型的 CI 测试。用户不受影响;系统方面,CI 流程更稳定,减少超时失败,但测试执行时间可能增加,影响 CI 资源消耗。团队需关注该测试的性能趋势,以防潜在退化。

测试超时调整可能掩盖性能问题

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论