执行摘要
- 一句话:将Runai模型加载测试从PR CI移至夜间测试套件,解决慢速和稳定性问题。
- 推荐动作:该PR变更直接,适合快速浏览以了解CI测试套件调整策略。值得关注的是如何将慢速、不稳定的测试从PR CI移至夜间测试的决策,这对优化CI流水线有参考价值。无需深入代码细节。
功能与动机
PR body中明确指出:测试通过Runai Model Streamer从GCS下载模型,速度慢(平均约380秒)且不稳定(在libstreamer.so中等待信号量时可能挂起),不适合在每次PR的CI中运行。因此需要将其移至夜间测试套件,避免影响PR CI的效率和可靠性。
实现拆解
变更涉及三个文件:1) 在.github/workflows/nightly-test-nvidia.yml中为nightly-1-gpu测试任务添加RUNAI_STREAMER_MEMORY_LIMIT: 0环境变量;2) 在.github/workflows/pr-test.yml中从stage-b-test-1-gpu-small任务移除该环境变量;3) 在test/registered/model_loading/test_runai_model_loader.py中更新测试注册信息,将suite从stage-b-test-1-gpu-small改为nightly-1-gpu,并设置nightly=True,同时将预估时间从120秒调整为380秒。
关键文件:
test/registered/model_loading/test_runai_model_loader.py(模块 测试注册): 核心变更文件,将测试从PR CI套件移至夜间套件,并更新预估时间
.github/workflows/nightly-test-nvidia.yml(模块 CI工作流): 为夜间测试套件添加环境变量配置,确保测试能正常运行
.github/workflows/pr-test.yml(模块 CI工作流): 移除PR CI套件中的环境变量,避免配置残留
关键符号:register_cuda_ci
评论区精华
本次PR没有review评论,所有变更由作者hnyls2002直接提交并合并。从提交历史看,作者在第一个提交中移动测试并更新环境变量,第二个提交专门移除pr-test.yml中的环境变量,显示了对CI配置的细致调整。
风险与影响
- 风险:风险较低,主要涉及CI配置调整:1) 测试移动后,Runai模型加载功能在PR CI中不再被验证,可能引入未被及时发现的回归问题;2) 环境变量RUNAI_STREAMER_MEMORY_LIMIT的调整如果未正确同步,可能导致测试在夜间套件中失败;3) 测试预估时间从120秒改为380秒,若实际耗时更长可能影响夜间测试的整体时长。
- 影响:对用户和系统无直接影响。对团队的影响:1) PR CI的stage-b-test-1-gpu-small套件运行时间缩短,提升CI效率;2) 夜间测试套件增加一个慢速测试,可能延长夜间测试时间;3) 减少了因Runai测试不稳定导致的CI失败,提高开发体验。
- 风险标记:测试覆盖减少, 环境变量配置风险
关联脉络
- PR #22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model: 同样涉及夜间测试套件的扩展,展示了CI测试策略的演进
- PR #22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5: 同属CI优化类PR,通过调整测试分区解决超时问题
- PR #22308 [CI] Add pre-commit hook to validate test/registered/ files have CI registry: 涉及test/registered/目录的测试注册管理,与本PR的测试移动相关
参与讨论