Prhub

#39607 [Doc] Add Gemma 4 to supported models list

vllm-project/vllm · 作者 z1ying · 合并时间 2026-04-17 13:42

分析状态 已生成
文件变更 1提交数 6 · 评论 16
代码增减 +8 / -0
documentation v1 cleanup

执行摘要

添加 Gemma 4 模型到支持模型列表文档。

根据PR body,Gemma4ForCausalLM和Gemma4ForConditionalGeneration已在代码中实现(如gemma4.py、gemma4_mm.py),但未在docs/models/supported_models.md文档中列出,因此需要更新以反映实际支持,避免用户混淆。

建议快速浏览以确保文档准确性,特别是模态支持注释部分,对使用Gemma 4多模态功能的用户有直接价值;无需深入代码分析。

讨论亮点

讨论焦点是Gemma 4的模态支持准确性:

  • 初始疑问:DarkLight1337指出可能有多视频/音频支持,引发对get_supported_mm_limits的检查。
  • 澄清细节:lucianommartins澄清所有模型支持文本+图像,音频仅限E2B/E4B变体,视频非原生输入但通过vLLM内部视频ingestor处理。
  • 决策结论:基于代码验证(如gemma4_mm.py中音频支持多输入),最终文档移除视频原生支持标记,添加变体特定音频注释,并保留视频从用户角度的支持说明。
  • 未解决疑虑:无,所有讨论点通过review确认后解决。

实现拆解

  1. 更新文本模型表格:在docs/models/supported_models.md的文本模型表格中添加Gemma4ForCausalLM行,包括模型名、示例ID、LoRA和PP支持,遵循现有Gemma 3条目格式。
  2. 更新多模态模型表格:在多模态模型表格中添加Gemma4ForConditionalGeneration行,指定模态为T + I⁺ + V + A*,并标注PP支持,添加通用标记*表示变体特定模态。
  3. 添加新注释和标记:在文档末尾添加note块,解释音频仅支持gemma-4-E2B和gemma-4-E4B变体,视频非原生输入但vLLM实现内部处理;同时新增<sup>*</sup>标记在脚注中,作为可复用通用说明。
  4. 验证和测试:通过pre-commit运行检查文档格式,未修改源代码或测试文件。
文件 模块 状态 重要度
docs/models/supported_models.md 模型文档 modified 2.31

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Gemma 4 模态支持准确性的讨论 正确性

DarkLight1337 初始指出可能有多视频 / 音频支持,引发对 get_supported_mm_limits 的检查;lucianommartins 澄清视频非原生输入、音频仅限特定变体;ywang96 引用代码确认音频支持多输入;最终文档更新以反映正确信息。

结论:文档移除视频原生支持标记,添加变体特定音频注释,并保留视频从用户角度的支持说明,确保准确性。 · 已解决

风险与影响

作为纯文档更新,技术风险极低:

  • 回归风险:无,未修改任何源代码或配置。
  • 性能/安全风险:无直接影响。
  • 兼容性风险:低,文档变更不影响系统运行,但若不准确可能导致用户误解Gemma 4模态支持;已通过review讨论和代码引用(如gemma4_mm.py第207-212行)验证细节,降低了风险。

影响范围限于文档用户:

  • 用户影响:正面提高Gemma 4模型的可发现性和使用指导,特别是多模态用户能更准确了解音频和视频支持限制。
  • 系统影响:无,不改变代码逻辑、性能或部署。
  • 团队影响:文档维护更完整,减少后续混淆;新增通用标记*为未来模型文档提供可复用模式。
文档准确性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR是一个文档更新,将已实现的Gemma 4模型(Gemma4ForCausalLM和Gemma4ForConditionalGeneration)添加到vLLM的支持模型列表文档中,并澄清了音频和视频模态的支持细节,旨在提高文档准确性和用户体验,无代码变更,风险极低。

功能与动机

为什么做:Gemma 4模型已在vLLM代码中实现(如gemma4.pygemma4_mm.py),但未在官方文档supported_models.md中列出,导致用户可能无法发现或误用。PR body明确说明:“Gemma4ForCausalLM and Gemma4ForConditionalGeneration are already implemented and registered in vLLM, but were missing from the documentation table”,因此需要更新文档以反映实际支持。

实现拆解

变更仅涉及一个文件docs/models/supported_models.md,按以下步骤拆解:

  1. 更新文本模型表格:在“Text-only models”部分添加Gemma4ForCausalLM行,包括模型名、描述、示例Hugging Face ID(如google/gemma-4-E2B-it)、LoRA和管道并行(PP)支持状态,格式与现有Gemma 3条目一致。
  2. 更新多模态模型表格:在“Multimodal models”部分添加Gemma4ForConditionalGeneration行,指定模态为T + I⁺ + V + A*(文本、多图像、视频、音频),其中*标记表示音频仅特定变体支持,并标注PP支持。
  3. 添加新注释和通用标记:在文档脚注中新增<sup>*</sup> Only specific variants of the model support this modality作为可复用通用标记;同时添加note块,详细说明音频仅限gemma-4-E2Bgemma-4-E4B变体,视频非原生输入但vLLM实现内部处理,用户可直接发送视频消息。

关键源码片段(整理自文档更新):

| `Gemma4ForCausalLM` | Gemma 4 | `google/gemma-4-E2B-it`, etc. | ✅︎ | ✅︎ |
| `Gemma4ForConditionalGeneration` | Gemma 4 | T + I⁺ + V + A<sup>*</sup> | `google/gemma-4-E2B-it`, etc. | | ✅︎ |
​
<sup>*</sup> Only specific variants of the model support this modality (see notes below).
​
!!! note
    For `Gemma4ForConditionalGeneration`:
    - audio input is only supported by the `gemma-4-E2B` and `gemma-4-E4B` variants.
    - The model does not ingest videos directly. However, vLLM’s Gemma 4 implementation supports video inputs by handling video processing internally. Users can send videos directly in the message structure to vLLM.

评论区精华

review讨论中最有价值的交锋围绕模态支持准确性:

  • DarkLight1337初始提问:“I think we also have multi-video and multi-audio support”,引发对代码get_supported_mm_limits的检查。
  • lucianommartins澄清核心细节:“all models support text + image; only e2b and e4b support audio input; no model support video input”,并解释视频通过vLLM内部ingestor处理。
  • ywang96基于代码引用确认:“Based on gemma4_mm.py lines 207-212, we can support multiple audio”,推动文档更新。
  • 最终共识:文档移除视频原生支持标记,添加变体特定音频注释,确保用户角度的准确性。

风险与影响

风险:作为纯文档更新,无技术回归、性能或安全风险;主要风险是文档不准确可能导致用户误解Gemma 4模态支持,但已通过review讨论和代码验证(如引用gemma4_mm.py)降低。
影响:正面影响文档用户,提高Gemma 4模型可发现性和使用指导;不影响系统运行;新增通用标记*为未来模型文档提供可复用模式,提升团队维护效率。

关联脉络

与历史PR #39234(“[Models][Gemma4] Prevent GPU/CPU sync in embed_input_ids”)相关,后者修复Gemma 4多模态模型的GPU/CPU同步问题,本PR则补充了该模型的官方文档支持,共同构成Gemma 4在vLLM中从实现到文档的完整支持链条。近期PR趋势显示vLLM持续扩展模型支持(如Gemma系列、量化整合),本PR是这一演进中的文档配套更新。

参与讨论