Prhub

#22418 Move runai model loader test to nightly suite

sgl-project/sglang · 作者 hnyls2002 · 合并时间 2026-04-09 12:39

分析状态 已生成
文件变更 3提交数 2 · 评论 1
代码增减 +3 / -2
run-ci test

执行摘要

将 Runai 模型加载测试从 PR CI 移至夜间测试套件,解决慢速和稳定性问题。

PR body中明确指出:测试通过Runai Model Streamer从GCS下载模型,速度慢(平均约380秒)且不稳定(在libstreamer.so中等待信号量时可能挂起),不适合在每次PR的CI中运行。因此需要将其移至夜间测试套件,避免影响PR CI的效率和可靠性。

该PR变更直接,适合快速浏览以了解CI测试套件调整策略。值得关注的是如何将慢速、不稳定的测试从PR CI移至夜间测试的决策,这对优化CI流水线有参考价值。无需深入代码细节。

讨论亮点

本次PR没有review评论,所有变更由作者hnyls2002直接提交并合并。从提交历史看,作者在第一个提交中移动测试并更新环境变量,第二个提交专门移除pr-test.yml中的环境变量,显示了对CI配置的细致调整。

实现拆解

变更涉及三个文件:1) 在.github/workflows/nightly-test-nvidia.yml中为nightly-1-gpu测试任务添加RUNAI_STREAMER_MEMORY_LIMIT: 0环境变量;2) 在.github/workflows/pr-test.yml中从stage-b-test-1-gpu-small任务移除该环境变量;3) 在test/registered/model_loading/test_runai_model_loader.py中更新测试注册信息,将suite从stage-b-test-1-gpu-small改为nightly-1-gpu,并设置nightly=True,同时将预估时间从120秒调整为380秒。

文件 模块 状态 重要度
test/registered/model_loading/test_runai_model_loader.py 测试注册 modified 8.0
.github/workflows/nightly-test-nvidia.yml CI 工作流 modified 6.0
.github/workflows/pr-test.yml CI 工作流 modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

register_cuda_ci

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,主要涉及CI配置调整:1) 测试移动后,Runai模型加载功能在PR CI中不再被验证,可能引入未被及时发现的回归问题;2) 环境变量RUNAI_STREAMER_MEMORY_LIMIT的调整如果未正确同步,可能导致测试在夜间套件中失败;3) 测试预估时间从120秒改为380秒,若实际耗时更长可能影响夜间测试的整体时长。

对用户和系统无直接影响。对团队的影响:1) PR CI的stage-b-test-1-gpu-small套件运行时间缩短,提升CI效率;2) 夜间测试套件增加一个慢速测试,可能延长夜间测试时间;3) 减少了因Runai测试不稳定导致的CI失败,提高开发体验。

测试覆盖减少 环境变量配置风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:将Runai模型加载测试从PR CI移至夜间测试套件,解决慢速和稳定性问题。
  • 推荐动作:该PR变更直接,适合快速浏览以了解CI测试套件调整策略。值得关注的是如何将慢速、不稳定的测试从PR CI移至夜间测试的决策,这对优化CI流水线有参考价值。无需深入代码细节。

功能与动机

PR body中明确指出:测试通过Runai Model Streamer从GCS下载模型,速度慢(平均约380秒)且不稳定(在libstreamer.so中等待信号量时可能挂起),不适合在每次PR的CI中运行。因此需要将其移至夜间测试套件,避免影响PR CI的效率和可靠性。

实现拆解

变更涉及三个文件:1) 在.github/workflows/nightly-test-nvidia.yml中为nightly-1-gpu测试任务添加RUNAI_STREAMER_MEMORY_LIMIT: 0环境变量;2) 在.github/workflows/pr-test.yml中从stage-b-test-1-gpu-small任务移除该环境变量;3) 在test/registered/model_loading/test_runai_model_loader.py中更新测试注册信息,将suite从stage-b-test-1-gpu-small改为nightly-1-gpu,并设置nightly=True,同时将预估时间从120秒调整为380秒。

关键文件:

  • test/registered/model_loading/test_runai_model_loader.py(模块 测试注册): 核心变更文件,将测试从PR CI套件移至夜间套件,并更新预估时间
  • .github/workflows/nightly-test-nvidia.yml(模块 CI工作流): 为夜间测试套件添加环境变量配置,确保测试能正常运行
  • .github/workflows/pr-test.yml(模块 CI工作流): 移除PR CI套件中的环境变量,避免配置残留

关键符号:register_cuda_ci

评论区精华

本次PR没有review评论,所有变更由作者hnyls2002直接提交并合并。从提交历史看,作者在第一个提交中移动测试并更新环境变量,第二个提交专门移除pr-test.yml中的环境变量,显示了对CI配置的细致调整。

  • 暂无高价值评论线程

风险与影响

  • 风险:风险较低,主要涉及CI配置调整:1) 测试移动后,Runai模型加载功能在PR CI中不再被验证,可能引入未被及时发现的回归问题;2) 环境变量RUNAI_STREAMER_MEMORY_LIMIT的调整如果未正确同步,可能导致测试在夜间套件中失败;3) 测试预估时间从120秒改为380秒,若实际耗时更长可能影响夜间测试的整体时长。
  • 影响:对用户和系统无直接影响。对团队的影响:1) PR CI的stage-b-test-1-gpu-small套件运行时间缩短,提升CI效率;2) 夜间测试套件增加一个慢速测试,可能延长夜间测试时间;3) 减少了因Runai测试不稳定导致的CI失败,提高开发体验。
  • 风险标记:测试覆盖减少, 环境变量配置风险

关联脉络

  • PR #22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model: 同样涉及夜间测试套件的扩展,展示了CI测试策略的演进
  • PR #22395 [CI] Increase stage-c-test-4-gpu-b200 partitions from 4 to 5: 同属CI优化类PR,通过调整测试分区解决超时问题
  • PR #22308 [CI] Add pre-commit hook to validate test/registered/ files have CI registry: 涉及test/registered/目录的测试注册管理,与本PR的测试移动相关

参与讨论