Prhub

#22565 chore: update CI test est_time values

sgl-project/sglang · 作者 sglang-bot · 合并时间 2026-04-11 09:15

分析状态 已生成
文件变更 250提交数 3 · 评论 1
代码增减 +251 / -251
ci run-ci

执行摘要

自动化更新 250 个 CI 测试文件的估计时间值,优化负载均衡算法准确性。

根据PR body描述,更新是为了'keep the LPT load-balancing algorithm accurate for partitioning tests across parallel CI jobs',基于main分支上scheduled PR Test runs的最近10次成功执行的中位数,以优化CI测试的负载均衡。

该PR无需精读,除非您负责CI基础设施、测试调度优化或关注自动化流程。可快速浏览以了解est_time更新机制,但无重要设计决策需深入分析。

讨论亮点

review评论为空,表明变更直接合并,没有争议或讨论。提交历史中有一个修复脚本的提交(修复后端匹配问题),但未在PR讨论中体现。

实现拆解

实现方案是修改测试文件中register_cuda_ciregister_cpu_ci调用的est_time参数值。所有变更都是数值更新,例如在test/registered/4-gpu-models/test_gpt_oss_4gpu.py中,est_time从300调整为328和312。共修改250个文件,每个文件改动一到两个数值,分布在不同测试套件和硬件后端(如H100、B200、H200)。

文件 模块 状态 重要度
test/registered/4-gpu-models/test_gpt_oss_4gpu.py 4-gpu-models modified 3.0
test/registered/8-gpu-models/test_deepseek_v3_basic.py 8-gpu-models modified 3.0
test/registered/attention/test_fa3.py attention modified 3.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

register_cuda_ci register_cpu_ci

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

技术风险较低,因为只更新数值参数,不涉及代码逻辑变更。但若更新后的est_time不准确(例如基于历史数据的中位数可能无法反映最新性能变化),可能导致CI调度不均衡,影响测试执行时间或资源分配。由于变更范围广(250个文件),需确保自动化脚本的准确性,避免手动错误。

对最终用户无直接影响,但改进CI测试的负载均衡后,可提升团队开发效率,减少测试超时或资源浪费。系统层面,CI作业分配更准确,可能加快整体测试流水线。影响范围限于CI基础设施,程度中等,不涉及核心推理或模型功能。

数值更新可能不准确 影响 CI 调度

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR由sglang-bot自动化生成,更新了250个CI测试文件的est_time估计时间值,基于最近10次成功执行的中位数,旨在优化LPT负载均衡算法,提升并行CI作业的测试分配效率。变更仅涉及数值参数调整,无代码逻辑修改,已由ch-wan直接合并。

功能与动机

更新动机源于保持CI测试负载均衡准确性的需求。根据PR body描述:"This keeps the LPT load-balancing algorithm accurate for partitioning tests across parallel CI jobs." 通过基于scheduled PR Test runs on main的最近10次成功执行中位数更新est_time值,确保测试在多个CI作业间合理分配,避免资源浪费或超时。

实现拆解

实现方案聚焦于修改测试文件中的register_cuda_ciregister_cpu_ci调用参数。关键改动点按模块梳理:

  • 4-GPU模型测试:例如test/registered/4-gpu-models/test_gpt_oss_4gpu.pyest_time从300调整为328(H100)和312(B200)。
  • 8-GPU模型测试:例如test/registered/8-gpu-models/test_deepseek_v3_basic.pyest_time从275调整为320。
  • 注意力内核测试:例如test/registered/attention/test_fa3.pyest_time从390调整为386。
  • 其他模块:涉及量化、LoRA、推测解码等多个标签对应测试,数值更新幅度从-50%到+50%不等(如test/registered/moe/test_cutedsl_moe.py从300改为13)。所有变更均通过脚本自动化执行,共修改250个文件。

评论区精华

无review讨论或争议点,表明变更被视为常规维护。提交历史中有一个修复脚本的提交(64dd689),修正了后端匹配问题,但未在PR讨论中展开。

风险与影响

  • 技术风险:主要风险是更新后的est_time值可能不准确,若历史数据中位数无法反映最新测试性能,会导致CI调度不均衡。但由于基于统计方法,风险可控。变更不涉及代码逻辑,因此无回归或安全风险。
  • 影响分析:对用户透明,无直接功能影响。系统层面,CI测试调度更准确,可能提升团队开发效率,减少测试超时。影响范围限于CI基础设施,程度中等。

关联脉络

本PR是CI基础设施自动化更新流程的一部分,与近期多个PR关联:

  • PR #22563#22557:修复est_time更新脚本的后端和套件匹配逻辑,为本PR的自动化执行奠定基础。
  • PR #22545:添加每周工作流来自动化更新est_time值,本PR是该工作流的直接产出。
    这些PR共同揭示了仓库在CI测试负载均衡和自动化维护方面的持续演进,旨在提升测试可靠性和资源利用率。

参与讨论