#22408 [CI] Adding Gemma 4 to Nightly CI

原始 PR 作者 kpham-sgl 合并时间 2026-04-17 10:30 文件变更 1 提交数 2 评论 3 代码增减 +6 / -3

执行摘要

在夜间 CI 测试中新增 Gemma 4 系列模型评估项，替换旧版 Gemma 3 测试。

根据PR正文描述，此变更是为了“Adding Gemma 4 variants to Nightly CI”，并引用了PR #21952作为先导。动机是跟进模型生态发展，确保CI对新发布的Gemma 4模型进行持续集成测试，以验证SGLang框架对新模型的支持和性能表现。

该PR变更简单直接，适合快速浏览以了解CI测试模型的更新情况。值得关注的点是：

1) 模型测试套件如何跟进上游模型发布；
2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。

讨论亮点

本次PR没有Review评论，仅有的讨论是作者在关联Issue中提供了夜间CI运行结果的链接（https://github.com/sgl-project/sglang/actions/runs/24543909587），用于佐证阈值调整的依据。这表明变更基于实际测试数据，但缺乏同行对阈值合理性的评审。

实现拆解

更新测试配置字典：修改文件 test/registered/eval/test_vlms_mmmu_eval.py 中的 MODEL_THRESHOLDS 字典。
替换模型条目：将原有的 google/gemma-3-4b-it 和 google/gemma-3n-E4B-it 条目替换为三个新的Gemma 4模型条目：google/gemma-4-E4B-it、google/gemma-4-26B-A4B-it（需2路张量并行）、google/gemma-4-31B-it（需2路张量并行）。
调整性能阈值：基于实际夜间CI运行结果（作者在Issue评论中提供了运行链接），为新增的Gemma 4模型设置了相应的准确率（第一个数值）和延迟阈值（第二个数值）。例如，gemma-4-E4B-it 的阈值从旧版的 (0.360, 10.9) 调整为 (0.26, 15.0)。
无其他配套改动：本次变更仅涉及测试配置文件，没有修改源码、部署脚本或文档。

文件	模块	状态	重要度
`test/registered/eval/test_vlms_mmmu_eval.py`	VLM 评估	modified	4.07

关键源码片段

test/registered/eval/test_vlms_mmmu_eval.py test-coverage

这是唯一变更的文件，包含了多模态 VLM 评估测试的模型配置和阈值，直接决定了夜间 CI 测试哪些模型及其通过标准。

MODEL_THRESHOLDS = {
    # ... 其他模型条目保持不变
    # 新增 Gemma 4 模型测试项，替换原有的 Gemma 3
    ModelLaunchSettings("google/gemma-4-E4B-it"): ModelEvalMetrics(0.26, 15.0),
    # 26B 版本需要 2 路张量并行（--tp=2）
    ModelLaunchSettings(
        "google/gemma-4-26B-A4B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.27, 22.3),
    # 31B 版本同样需要 2 路张量并行
    ModelLaunchSettings(
        "google/gemma-4-31B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.28, 25.5),
    # ... 后续模型条目保持不变
}

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

测试覆盖风险：替换旧模型测试可能降低对Gemma 3的持续监控，但鉴于Gemma 4是新一代模型，此风险可控。
阈值准确性风险：新设置的准确率和延迟阈值（如 gemma-4-E4B-it 的 0.26, 15.0）若设置不当，可能导致CI测试误报（通过本应失败的测试）或漏报（失败本应通过的测试）。由于缺乏Review讨论，阈值的科学性和长期稳定性未经验证。
依赖兼容性风险：PR正文提到“Pending https://github.com/sgl-project/sglang/pull/21569 upgrade transformer to 5.5.0”，暗示Gemma 4模型可能需要更高版本的Transformer库支持。若依赖未升级，测试可能失败。

对用户影响：无直接影响，这是内部CI测试的更新。
对系统影响：夜间CI将开始对Gemma 4模型进行自动化评估，有助于提前发现与新模型相关的回归问题。
对团队影响：开发团队需要关注Gemma 4测试结果，确保框架兼容性；运维团队需确认CI环境满足新模型的资源需求（如内存、GPU）。影响范围限于测试流程，程度较低。

阈值未经验证依赖待升级

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：在夜间CI测试中新增Gemma 4系列模型评估项，替换旧版Gemma 3测试。
推荐动作：该PR变更简单直接，适合快速浏览以了解CI测试模型的更新情况。值得关注的点是：
1) 模型测试套件如何跟进上游模型发布；
2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。

功能与动机

实现拆解

更新测试配置字典：修改文件 test/registered/eval/test_vlms_mmmu_eval.py 中的 MODEL_THRESHOLDS 字典。
替换模型条目：将原有的 google/gemma-3-4b-it 和 google/gemma-3n-E4B-it 条目替换为三个新的Gemma 4模型条目：google/gemma-4-E4B-it、google/gemma-4-26B-A4B-it（需2路张量并行）、google/gemma-4-31B-it（需2路张量并行）。
调整性能阈值：基于实际夜间CI运行结果（作者在Issue评论中提供了运行链接），为新增的Gemma 4模型设置了相应的准确率（第一个数值）和延迟阈值（第二个数值）。例如，gemma-4-E4B-it 的阈值从旧版的 (0.360, 10.9) 调整为 (0.26, 15.0)。
无其他配套改动：本次变更仅涉及测试配置文件，没有修改源码、部署脚本或文档。

关键文件：

test/registered/eval/test_vlms_mmmu_eval.py（模块 VLM评估；类别 test；类型 test-coverage；符号 MODEL_THRESHOLDS）: 这是唯一变更的文件，包含了多模态VLM评估测试的模型配置和阈值，直接决定了夜间CI测试哪些模型及其通过标准。

关键符号：未识别

关键源码片段

`test/registered/eval/test_vlms_mmmu_eval.py`

这是唯一变更的文件，包含了多模态VLM评估测试的模型配置和阈值，直接决定了夜间CI测试哪些模型及其通过标准。

MODEL_THRESHOLDS = {
    # ... 其他模型条目保持不变
    # 新增 Gemma 4 模型测试项，替换原有的 Gemma 3
    ModelLaunchSettings("google/gemma-4-E4B-it"): ModelEvalMetrics(0.26, 15.0),
    # 26B 版本需要 2 路张量并行（--tp=2）
    ModelLaunchSettings(
        "google/gemma-4-26B-A4B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.27, 22.3),
    # 31B 版本同样需要 2 路张量并行
    ModelLaunchSettings(
        "google/gemma-4-31B-it", extra_args=["--tp=2"]
    ): ModelEvalMetrics(0.28, 25.5),
    # ... 后续模型条目保持不变
}

评论区精华

暂无高价值评论线程

风险与影响

风险：
1. 测试覆盖风险：替换旧模型测试可能降低对Gemma 3的持续监控，但鉴于Gemma 4是新一代模型，此风险可控。
2. 阈值准确性风险：新设置的准确率和延迟阈值（如 gemma-4-E4B-it 的 0.26, 15.0）若设置不当，可能导致CI测试误报（通过本应失败的测试）或漏报（失败本应通过的测试）。由于缺乏Review讨论，阈值的科学性和长期稳定性未经验证。
3. 依赖兼容性风险：PR正文提到“Pending https://github.com/sgl-project/sglang/pull/21569 upgrade transformer to 5.5.0”，暗示Gemma 4模型可能需要更高版本的Transformer库支持。若依赖未升级，测试可能失败。
影响：
1. 对用户影响：无直接影响，这是内部CI测试的更新。
2. 对系统影响：夜间CI将开始对Gemma 4模型进行自动化评估，有助于提前发现与新模型相关的回归问题。
3. 对团队影响：开发团队需要关注Gemma 4测试结果，确保框架兼容性；运维团队需确认CI环境满足新模型的资源需求（如内存、GPU）。影响范围限于测试流程，程度较低。
  - 风险标记：阈值未经验证, 依赖待升级

关联脉络

PR #21952 [CI] Adding Gemma 4 to Nightly CI: PR正文明确引用此PR为先导（"following https://github.com/sgl-project/sglang/pull/21952"），表明这是同一功能线的延续，可能涉及更早的Gemma 4 CI集成工作。
PR #21569 upgrade transformer to 5.5.0: PR正文提到"Pending https://github.com/sgl-project/sglang/pull/21569"，暗示Gemma 4测试可能依赖Transformer库升级，两者在依赖层面关联。

#22408 [CI] Adding Gemma 4 to Nightly CI

执行摘要

在夜间 CI 测试中新增 Gemma 4 系列模型评估项，替换旧版 Gemma 3 测试。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论