#5961 [rollout, vllm] fix: auto-convert disable_mm_preprocessor_cache to mm_processor_cache_gb for vllm >= 0.13.0

verl-project/verl · 作者 Silas-11 · 合并时间 2026-04-14 14:26

分析状态已生成

文件变更 16提交数 4 · 评论 1

代码增减 +17 / -17

rollout vllm examples misc

执行摘要

自动转换 vLLM 废弃的多模态预处理器缓存参数，确保 vLLM >= 0.13.0 的兼容性。

根据 Issue #5959 报告，使用 vLLM 0.13.0 运行多模态训练脚本（如 Qwen3-VL-8B-Instruct）时会因 disable_mm_preprocessor_cache 参数被移除而出现 ActorDiedError。PR body 指出，vLLM 0.11.0 已废弃此参数，0.13.0 完全移除，需自动转换以维持跨版本兼容性，避免用户手动调整配置。

建议工程团队精读此 PR，特别是 vllm_async_server.py 中的版本适配逻辑，作为处理第三方库 API 变化的参考案例。关注参数转换的策略和冲突处理方式，以应用于类似兼容性修复场景。

讨论亮点

review 中，gemini-code-assist[bot] 指出初始实现存在逻辑缺陷：使用 setdefault 处理 mm_processor_cache_gb 时，如果用户已显式设置非零值，会保留原值并记录误导性警告，可能导致缓存未按预期禁用。讨论后，代码被调整以更稳健地处理冲突（通过检查 mm_processor_cache_gb 是否已存在），并移除了警告日志，确保配置正确性。

实现拆解

实现集中在 verl/workers/rollout/vllm_rollout/vllm_async_server.py 的 launch_server() 函数中：添加条件检查 disable_mm_preprocessor_cache 是否存在于 engine_kwargs，如果 vLLM 版本 >= 0.13.0，则将其弹出并转换为 mm_processor_cache_gb=0，同时优先尊重用户已设置的 mm_processor_cache_gb 值以避免覆盖。此外，提交历史显示后续更新了 16 个示例脚本（如 examples/grpo_trainer/run_qwen3_vl-8b_npu.sh），将 disable_mm_preprocessor_cache=True 直接替换为 mm_processor_cache_gb=0，确保脚本一致性并减少依赖转换逻辑。

文件	模块	状态	重要度
`verl/workers/rollout/vllm_rollout/vllm_async_server.py`	rollout	modified	9.0
`examples/grpo_trainer/run_qwen3_vl-8b_npu.sh`	examples	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

launch_server

评论区精华

参数转换逻辑缺陷与冲突处理 正确性

gemini-code-assist[bot] 指出初始实现使用 setdefault 可能导致误导性日志和错误配置，当用户已设置 mm_processor_cache_gb 为非零值时，缓存未按预期禁用。

结论：代码被调整以优先检查 mm_processor_cache_gb 是否已存在，避免覆盖用户配置，并移除了警告日志，确保正确性。 · 已解决

风险与影响

主要风险包括：1) 版本检查依赖 _VLLM_VERSION 变量，若未正确初始化或版本解析错误，可能导致转换逻辑失效；2) 当用户同时设置新旧参数时，参数优先级处理需谨慎，PR 通过先检查 mm_processor_cache_gb 是否已存在来避免覆盖，但极端情况下可能存在未覆盖的边缘场景；3) 缺少 CI 测试覆盖，因需多模态模型和数据集环境，但手动验证已覆盖 vLLM 0.11.0 和 0.13.0 场景，降低了风险。

对用户：完全透明，无需修改现有脚本即可兼容 vLLM >= 0.13.0，解决了训练崩溃问题，提升了使用体验。对系统：修复了 vLLM 引擎初始化的静默失败（ActorDiedError），增强了多模态训练的可靠性和稳定性。对团队：简化了 vLLM 版本升级的维护负担，提供了处理外部依赖 breaking change 的参考模式。

版本依赖风险参数冲突处理缺少测试覆盖

关联 Issue

#5959 [Bug] Training fails with vllm 0.13.0 due to removed parameter: disable_mm_preprocessor_cache

完整报告

执行摘要

本 PR 自动处理 vLLM 0.13.0 中移除的多模态预处理器缓存参数，通过版本检查逻辑将 disable_mm_preprocessor_cache 转换为 mm_processor_cache_gb，确保多模态训练脚本在升级后无需修改即可正常运行，修复了因参数废弃导致的训练崩溃问题。

功能与动机

根据 Issue #5959 报告，vLLM 0.13.0 移除了 disable_mm_preprocessor_cache 参数，导致使用该参数的多模态训练脚本（如 Qwen3-VL-8B-Instruct）失败并抛出 ActorDiedError。PR 旨在自动转换此参数，维持向后兼容性，使用户在升级 vLLM 版本时无需手动调整配置。

实现拆解

核心改动在 verl/workers/rollout/vllm_rollout/vllm_async_server.py 的 launch_server() 函数中：

if "disable_mm_preprocessor_cache" in engine_kwargs:
    if _VLLM_VERSION >= version.parse("0.13.0"):
        disable_cache = engine_kwargs.pop("disable_mm_preprocessor_cache")
        if disable_cache:
            if "mm_processor_cache_gb" not in engine_kwargs:
                engine_kwargs["mm_processor_cache_gb"] = 0

此外，更新了 16 个示例脚本（如 examples/grpo_trainer/run_qwen3_vl-8b_npu.sh），将 disable_mm_preprocessor_cache=True 直接替换为 mm_processor_cache_gb=0，确保脚本一致性。

评论区精华

gemini-code-assist[bot] 指出初始实现存在逻辑缺陷：

"当 disable_mm_preprocessor_cache 为 True 时，代码记录为‘自动转换为 mm_processor_cache_gb=0’，但如果用户已显式设置 mm_processor_cache_gb 为非零值，setdefault 不会覆盖它，导致误导性日志和潜在错误配置。"
讨论后，代码被调整以更稳健地处理参数冲突，并移除了警告日志。

风险与影响

风险：版本检查准确性依赖 _VLLM_VERSION 变量；参数优先级处理在极端场景下可能未覆盖；缺少 CI 测试覆盖，因需多模态环境。
影响：用户无需修改脚本即可兼容新版本 vLLM，系统修复了训练崩溃，团队降低了维护负担。

关联脉络

此 PR 反映了处理外部依赖 breaking change 的常见模式。近期历史 PR 中，如 #5934 涉及 vLLM 性能优化，但未直接处理参数废弃；整体上，verl 项目持续适配 vLLM 版本升级，确保多模态训练稳定性。

支持 Prhub ♥

#5961 [rollout, vllm] fix: auto-convert disable_mm_preprocessor_cache to mm_processor_cache_gb for vllm >= 0.13.0

执行摘要

自动转换 vLLM 废弃的多模态预处理器缓存参数，确保 vLLM >= 0.13.0 的兼容性。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论