Prhub

#22609 [CI] Update B200 est_times to prevent timeouts on slower machine

原始 PR 作者 alisonshao 合并时间 2026-04-12 12:40 文件变更 9 提交数 2 评论 4 代码增减 +9 / -9

执行摘要

更新 B200 测试的预计执行时间,防止在性能较慢的机器上超时。

PR body 指出,第二台 B200 机器由于硬件差异(HBM 带宽慢 1.6 倍,磁盘读速度慢 2.8 倍)运行速度约 1.8 倍慢于第一台机器,导致测试超时。例如,链接显示超时示例。更新 est_time 是为了校准时间估计,确保测试分区不会因超时而失败。

此 PR 变更简单,无需精读。对于负责 CI 基础设施的工程师,可以关注 est_time 调整的策略和硬件性能差异的分析,作为优化测试分区的参考。

讨论亮点

review 中没有实质性技术讨论,仅有一个 bot 评论表示无反馈。提交历史显示两个增量提交,先更新 6 个测试,再更新 4 个额外测试,表明调整是基于持续观察和优化,无争议或设计权衡。

实现拆解

实现简单直接:修改了 9 个测试文件中 register_cuda_ci 装饰器的 est_time 参数。每个文件只调整一个数值,从旧值更新到新值,新值基于慢机器的实际运行时间加上 20% 缓冲。例如,test_gpt_oss_4gpu.py 的 est_time 从 312 秒更新到 740 秒,其他文件类似调整。没有逻辑或功能代码变更。

文件 模块 状态 重要度
test/registered/4-gpu-models/test_gpt_oss_4gpu.py 4-gpu-models modified 3.0
test/registered/moe/test_cutedsl_moe.py moe modified 3.0
test/registered/quant/test_deepseek_v3_fp4_4gpu.py quant modified 3.0
test/registered/attention/test_flash_attention_4.py attention modified 3.0

关键符号

register_cuda_ci

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,因为只修改了时间估计配置,没有更改测试逻辑。主要风险是 est_time 可能仍不准确,如果未来硬件性能变化或测试负载增加,可能导致超时或 CI 运行时间不必要延长。例如,test_cutedsl_moe.py 的 est_time 从 13 秒大幅增加到 590 秒,需确保缓冲足够但不过度。

直接影响 CI 测试的稳定性和运行时间:减少超时失败,提高测试可靠性。间接影响是可能增加 CI 整体时长,因为 est_time 值被提高以容纳缓冲,但这有助于避免重试和失败。对用户和系统无直接影响,仅影响内部测试流程。

依赖硬件性能估计 潜在 CI 时间增加

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论