执行摘要
本PR由sglang-bot自动化生成,更新了250个CI测试文件的est_time估计时间值,基于最近10次成功执行的中位数,旨在优化LPT负载均衡算法,提升并行CI作业的测试分配效率。变更仅涉及数值参数调整,无代码逻辑修改,已由ch-wan直接合并。
功能与动机
更新动机源于保持CI测试负载均衡准确性的需求。根据PR body描述:"This keeps the LPT load-balancing algorithm accurate for partitioning tests across parallel CI jobs." 通过基于scheduled PR Test runs on main的最近10次成功执行中位数更新est_time值,确保测试在多个CI作业间合理分配,避免资源浪费或超时。
实现拆解
实现方案聚焦于修改测试文件中的register_cuda_ci和register_cpu_ci调用参数。关键改动点按模块梳理:
- 4-GPU模型测试:例如
test/registered/4-gpu-models/test_gpt_oss_4gpu.py,est_time从300调整为328(H100)和312(B200)。
- 8-GPU模型测试:例如
test/registered/8-gpu-models/test_deepseek_v3_basic.py,est_time从275调整为320。
- 注意力内核测试:例如
test/registered/attention/test_fa3.py,est_time从390调整为386。
- 其他模块:涉及量化、LoRA、推测解码等多个标签对应测试,数值更新幅度从-50%到+50%不等(如
test/registered/moe/test_cutedsl_moe.py从300改为13)。所有变更均通过脚本自动化执行,共修改250个文件。
评论区精华
无review讨论或争议点,表明变更被视为常规维护。提交历史中有一个修复脚本的提交(64dd689),修正了后端匹配问题,但未在PR讨论中展开。
风险与影响
- 技术风险:主要风险是更新后的
est_time值可能不准确,若历史数据中位数无法反映最新测试性能,会导致CI调度不均衡。但由于基于统计方法,风险可控。变更不涉及代码逻辑,因此无回归或安全风险。
- 影响分析:对用户透明,无直接功能影响。系统层面,CI测试调度更准确,可能提升团队开发效率,减少测试超时。影响范围限于CI基础设施,程度中等。
关联脉络
本PR是CI基础设施自动化更新流程的一部分,与近期多个PR关联:
- PR #22563和#22557:修复
est_time更新脚本的后端和套件匹配逻辑,为本PR的自动化执行奠定基础。
- PR #22545:添加每周工作流来自动化更新
est_time值,本PR是该工作流的直接产出。
这些PR共同揭示了仓库在CI测试负载均衡和自动化维护方面的持续演进,旨在提升测试可靠性和资源利用率。
参与讨论