Prhub

#22408 [CI] Adding Gemma 4 to Nightly CI

sgl-project/sglang · 作者 kpham-sgl · 合并时间 2026-04-17 10:30

分析状态 已生成
文件变更 1提交数 2 · 评论 3
代码增减 +6 / -3
test run-ci multimodal

执行摘要

在夜间 CI 测试中新增 Gemma 4 系列模型评估项,替换旧版 Gemma 3 测试。

根据PR正文描述,此变更是为了“Adding Gemma 4 variants to Nightly CI”,并引用了PR #21952作为先导。动机是跟进模型生态发展,确保CI对新发布的Gemma 4模型进行持续集成测试,以验证SGLang框架对新模型的支持和性能表现。

该PR变更简单直接,适合快速浏览以了解CI测试模型的更新情况。值得关注的点是:1) 模型测试套件如何跟进上游模型发布;2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。

讨论亮点

本次PR没有Review评论,仅有的讨论是作者在关联Issue中提供了夜间CI运行结果的链接(https://github.com/sgl-project/sglang/actions/runs/24543909587),用于佐证阈值调整的依据。这表明变更基于实际测试数据,但缺乏同行对阈值合理性的评审。

实现拆解

  1. 更新测试配置字典:修改文件 test/registered/eval/test_vlms_mmmu_eval.py 中的 MODEL_THRESHOLDS 字典。
  2. 替换模型条目:将原有的 google/gemma-3-4b-itgoogle/gemma-3n-E4B-it 条目替换为三个新的Gemma 4模型条目:google/gemma-4-E4B-itgoogle/gemma-4-26B-A4B-it(需2路张量并行)、google/gemma-4-31B-it(需2路张量并行)。
  3. 调整性能阈值:基于实际夜间CI运行结果(作者在Issue评论中提供了运行链接),为新增的Gemma 4模型设置了相应的准确率(第一个数值)和延迟阈值(第二个数值)。例如,gemma-4-E4B-it 的阈值从旧版的 (0.360, 10.9) 调整为 (0.26, 15.0)
  4. 无其他配套改动:本次变更仅涉及测试配置文件,没有修改源码、部署脚本或文档。
文件 模块 状态 重要度
test/registered/eval/test_vlms_mmmu_eval.py VLM 评估 modified 4.07
test/registered/eval/test_vlms_mmmu_eval.py test-coverage

这是唯一变更的文件,包含了多模态 VLM 评估测试的模型配置和阈值,直接决定了夜间 CI 测试哪些模型及其通过标准。

MODEL_THRESHOLDS = {
    # ... 其他模型条目保持不变
    # 新增Gemma 4模型测试项,替换原有的Gemma 3
    ModelLaunchSettings("google/gemma-4-E4B-it"): ModelEvalMetrics(0.26, 15.0),
    # 26B版本需要2路张量并行(--tp=2)
    ModelLaunchSettings(
        "google/gemma-4-26B-A4B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.27, 22.3),
    # 31B版本同样需要2路张量并行
    ModelLaunchSettings(
        "google/gemma-4-31B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.28, 25.5),
    # ... 后续模型条目保持不变
}

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  1. 测试覆盖风险:替换旧模型测试可能降低对Gemma 3的持续监控,但鉴于Gemma 4是新一代模型,此风险可控。
  2. 阈值准确性风险:新设置的准确率和延迟阈值(如 gemma-4-E4B-it0.26, 15.0)若设置不当,可能导致CI测试误报(通过本应失败的测试)或漏报(失败本应通过的测试)。由于缺乏Review讨论,阈值的科学性和长期稳定性未经验证。
  3. 依赖兼容性风险:PR正文提到“Pending https://github.com/sgl-project/sglang/pull/21569 upgrade transformer to 5.5.0”,暗示Gemma 4模型可能需要更高版本的Transformer库支持。若依赖未升级,测试可能失败。
  1. 对用户影响:无直接影响,这是内部CI测试的更新。
  2. 对系统影响:夜间CI将开始对Gemma 4模型进行自动化评估,有助于提前发现与新模型相关的回归问题。
  3. 对团队影响:开发团队需要关注Gemma 4测试结果,确保框架兼容性;运维团队需确认CI环境满足新模型的资源需求(如内存、GPU)。影响范围限于测试流程,程度较低。
阈值未经验证 依赖待升级

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:在夜间CI测试中新增Gemma 4系列模型评估项,替换旧版Gemma 3测试。
  • 推荐动作:该PR变更简单直接,适合快速浏览以了解CI测试模型的更新情况。值得关注的点是:1) 模型测试套件如何跟进上游模型发布;2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。

功能与动机

根据PR正文描述,此变更是为了“Adding Gemma 4 variants to Nightly CI”,并引用了PR #21952作为先导。动机是跟进模型生态发展,确保CI对新发布的Gemma 4模型进行持续集成测试,以验证SGLang框架对新模型的支持和性能表现。

实现拆解

  1. 更新测试配置字典:修改文件 test/registered/eval/test_vlms_mmmu_eval.py 中的 MODEL_THRESHOLDS 字典。
  2. 替换模型条目:将原有的 google/gemma-3-4b-itgoogle/gemma-3n-E4B-it 条目替换为三个新的Gemma 4模型条目:google/gemma-4-E4B-itgoogle/gemma-4-26B-A4B-it(需2路张量并行)、google/gemma-4-31B-it(需2路张量并行)。
  3. 调整性能阈值:基于实际夜间CI运行结果(作者在Issue评论中提供了运行链接),为新增的Gemma 4模型设置了相应的准确率(第一个数值)和延迟阈值(第二个数值)。例如,gemma-4-E4B-it 的阈值从旧版的 (0.360, 10.9) 调整为 (0.26, 15.0)
  4. 无其他配套改动:本次变更仅涉及测试配置文件,没有修改源码、部署脚本或文档。

关键文件:

  • test/registered/eval/test_vlms_mmmu_eval.py(模块 VLM评估;类别 test;类型 test-coverage;符号 MODEL_THRESHOLDS): 这是唯一变更的文件,包含了多模态VLM评估测试的模型配置和阈值,直接决定了夜间CI测试哪些模型及其通过标准。

关键符号:未识别

关键源码片段

test/registered/eval/test_vlms_mmmu_eval.py

这是唯一变更的文件,包含了多模态VLM评估测试的模型配置和阈值,直接决定了夜间CI测试哪些模型及其通过标准。

MODEL_THRESHOLDS = {
    # ... 其他模型条目保持不变
    # 新增Gemma 4模型测试项,替换原有的Gemma 3
    ModelLaunchSettings("google/gemma-4-E4B-it"): ModelEvalMetrics(0.26, 15.0),
    # 26B版本需要2路张量并行(--tp=2)
    ModelLaunchSettings(
        "google/gemma-4-26B-A4B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.27, 22.3),
    # 31B版本同样需要2路张量并行
    ModelLaunchSettings(
        "google/gemma-4-31B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.28, 25.5),
    # ... 后续模型条目保持不变
}

评论区精华

本次PR没有Review评论,仅有的讨论是作者在关联Issue中提供了夜间CI运行结果的链接(https://github.com/sgl-project/sglang/actions/runs/24543909587),用于佐证阈值调整的依据。这表明变更基于实际测试数据,但缺乏同行对阈值合理性的评审。

  • 暂无高价值评论线程

风险与影响

  • 风险:1. 测试覆盖风险:替换旧模型测试可能降低对Gemma 3的持续监控,但鉴于Gemma 4是新一代模型,此风险可控。
    2. 阈值准确性风险:新设置的准确率和延迟阈值(如 gemma-4-E4B-it0.26, 15.0)若设置不当,可能导致CI测试误报(通过本应失败的测试)或漏报(失败本应通过的测试)。由于缺乏Review讨论,阈值的科学性和长期稳定性未经验证。
    3. 依赖兼容性风险:PR正文提到“Pending https://github.com/sgl-project/sglang/pull/21569 upgrade transformer to 5.5.0”,暗示Gemma 4模型可能需要更高版本的Transformer库支持。若依赖未升级,测试可能失败。
  • 影响:1. 对用户影响:无直接影响,这是内部CI测试的更新。
    2. 对系统影响:夜间CI将开始对Gemma 4模型进行自动化评估,有助于提前发现与新模型相关的回归问题。
    3. 对团队影响:开发团队需要关注Gemma 4测试结果,确保框架兼容性;运维团队需确认CI环境满足新模型的资源需求(如内存、GPU)。影响范围限于测试流程,程度较低。
  • 风险标记:阈值未经验证, 依赖待升级

关联脉络

  • PR #21952 [CI] Adding Gemma 4 to Nightly CI: PR正文明确引用此PR为先导("following https://github.com/sgl-project/sglang/pull/21952"),表明这是同一功能线的延续,可能涉及更早的Gemma 4 CI集成工作。
  • PR #21569 upgrade transformer to 5.5.0: PR正文提到"Pending https://github.com/sgl-project/sglang/pull/21569",暗示Gemma 4测试可能依赖Transformer库升级,两者在依赖层面关联。

参与讨论