#18467 VLM: support passing --mm-process-config for all models

原始 PR 作者 edwingao28 合并时间 2026-04-12 17:08 文件变更 7 提交数 13 评论 16 代码增减 +331 / -6

执行摘要

修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题，通过按模态分离配置避免冲突。

根据 issue #14672，用户设置 --mm-process-config 参数后，除了 Qwen VL 外，其他模型如 InternVL、LLaVA、MiniCPM 等均未生效。PR body 指出，之前尝试的 PR #14968 由于使用 kwargs.update() 导致参数冲突（例如 image 和 video 配置共享相同键时被覆盖），本 PR 旨在彻底解决此问题。

该 PR 值得精读，特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括：如何使用 setdefault().update() 优雅地合并配置，以及如何通过验证和测试确保健壮性。对于维护者，可以学习避免参数冲突的模式。

讨论亮点

review 中主要讨论点包括：gemini-code-assist[bot] 建议改进 midashenglm.py 的代码可读性和测试命名，edwingao28 采纳了建议；yuan-luo 询问为何 qwen_vl.py 无需改动，edwingao28 解释因继承基类而 ernie45_vl 需显式添加；mickqian 建议将验证逻辑提取到单独函数 _handle_multimodal()，edwingao28 表示已解决。没有未解决的疑虑，所有反馈都被整合。

实现拆解

实现分为几个部分：

1) 在 server_args.py 中添加 _handle_multimodal() 方法进行配置验证，确保 mm_process_config 为字典且每个模态值为字典。
2) 在 base_processor.py 的 __init__ 中提取 image_config、video_config、audio_config，并在 process_mm_data 中使用 setdefault().update() 注入为 images_kwargs 等，保留现有默认值。
3) 移除 qwen_vl.py 中的重复提取逻辑，使其继承基类。
4) 在覆盖 process_mm_data 的处理器如 ernie45_vl.py 和 midashenglm.py 中添加相应的配置注入。
5) 更新文档并新增测试文件 test_mm_process_config.py，涵盖验证、注入、冲突检查和回归测试。

文件	模块	状态	重要度
`python/sglang/srt/multimodal/processors/base_processor.py`	multimodal processors	modified	8.0
`python/sglang/srt/server_args.py`	server arguments	modified	7.0
`test/registered/core/test_mm_process_config.py`	testing	added	7.0
`python/sglang/srt/multimodal/processors/ernie45_vl.py`	multimodal processors	modified	6.0
`docs/supported_models/text_generation/multimodal_language_models.md`	documentation	modified	4.0

关键符号

BaseMultimodalProcessor.__init__ BaseMultimodalProcessor.process_mm_data ServerArgs._handle_multimodal ernie45_vl.process_mm_data midashenglm.process_mm_data

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

代码可读性改进 style

gemini-code-assist[bot] 建议在 midashenglm.py 中使用局部变量避免多次字典查找。

结论：edwingao28 采纳了建议，改进了代码。 · 已解决

测试命名清晰度 测试

gemini-code-assist[bot] 指出测试名称与实现不符，建议重命名以反映覆盖默认值。

结论：edwingao28 采纳了建议，更新了测试命名。 · 已解决

继承与覆盖的设计 设计

yuan-luo 询问为何 qwen_vl.py 无需添加配置注入代码。

结论：edwingao28 解释因 qwen_vl 继承基类，而 ernie45_vl 覆盖了方法需显式添加。 · 已解决

验证逻辑提取 设计

mickqian 建议将 mm_process_config 验证提取到单独函数 `_handle_multimodal()`。

结论：edwingao28 实施了提取，改善了代码结构。 · 已解决

风险与影响

技术风险较低：

1) 回归风险：修改了基类和多个处理器，可能影响现有 VLM 的处理流程，但新增的测试覆盖了验证和注入，减少了风险。
2) 性能风险：使用 setdefault().update() 添加了额外字典操作，但开销微小，不影响核心性能。
3) 兼容性风险：配置验证确保输入格式正确，但用户若依赖旧行为（如参数冲突），现在会正确分离，可能改变行为，但这是预期的修复。
4) 安全风险：无直接安全影响。

对用户：所有 VLM 用户现在可以正确使用 --mm-process-config 参数控制图像、视频、音频处理设置，提升灵活性和内存管理能力。对系统：增强了配置传递的可靠性，避免了参数冲突，改善了多模态处理的健壮性。对团队：代码更清晰，通过基类统一处理，减少了重复逻辑，便于维护；新增测试确保了变更质量。

配置传递修复测试覆盖增强低回归风险

关联 Issue

#14672 [Bug] VLM: `--mm-process-config` is currently defined but not working

#18467 VLM: support passing --mm-process-config for all models

执行摘要

修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题，通过按模态分离配置避免冲突。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论