#40580 [MM][CG] Support `--enable-vit-cuda-graph` option for VLM examples

原始 PR 作者 shen-shanshan 合并时间 2026-04-23 13:46 文件变更 2 提交数 3 评论 13 代码增减 +40 / -6

执行摘要

为视觉语言模型示例添加 CUDA 图编译支持选项。

根据 PR body，目的是支持 VLM 示例中的 --enable-vit-cuda-graph 选项，以启用 ViT CUDA 图捕获和重放，优化模型推理性能。

建议关注 maybe_add_vit_cuda_graph_compilation_config 函数的配置逻辑和 get_encoder_cudagraph_budget_range 的设计权衡，了解 CUDA 图优化在多模态推理中的实现方式。

讨论亮点

配置格式问题：gemini-code-assist[bot] 指出 compilation_config 必须是 JSON 字符串而非字典，否则会导致 TypeError；作者在后续提交中修复此问题。
预算计算争议：DarkLight1337 询问预算是否可自动推断，并讨论 max_budget 计算是否需基于 max_model_len；shen-shanshan 回应测试中 max_num_batched_tokens 可能超过 max_model_len，导致运行时错误，因此添加 min 限制和 TODO 注释。
结论：配置格式问题已解决，预算计算暂用保守方式，留待后续优化。

实现拆解

添加命令行参数：在 examples/offline_inference/vision_language.py 的 parse_args 函数中添加 --enable-vit-cuda-graph 标志，提供用户启用选项。
定义支持模型列表：在同一文件中添加 MODELS_SUPPORT_VIT_CUDA_GRAPH 常量，目前包括 "qwen3_vl" 和 "qwen3_vl_moe"，用于限制功能范围。
实现配置函数：新增 maybe_add_vit_cuda_graph_compilation_config 函数，根据参数和模态设置 engine_args.compilation_config 为 JSON 字符串，包含 cudagraph_mm_encoder 和 encoder_cudagraph_max_vision_items_per_batch 键。
调整模型预算计算：修改 vllm/model_executor/models/qwen3_vl.py 中的 get_encoder_cudagraph_budget_range 函数，用 min 限制 max_budget 为 max_num_batched_tokens 和 max_model_len 的最小值，并添加 TODO 注释以优化后续。
集成到主流程：在 vision_language.py 的 main 函数中调用配置函数，确保引擎参数正确设置。
本次改动不包含测试或部署配套。

文件	模块	状态	重要度
`examples/offline_inference/vision_language.py`	示例脚本	modified	7.05
`vllm/model_executor/models/qwen3_vl.py`	模型执行器	modified	5.8

关键符号

maybe_add_vit_cuda_graph_compilation_config get_encoder_cudagraph_budget_range

关键源码片段

examples/offline_inference/vision_language.py core-logic

主要变更文件，添加了命令行参数、支持模型列表和配置函数，是实现 CUDA 图支持的核心入口。

def maybe_add_vit_cuda_graph_compilation_config(args, engine_args):
    """
    根据命令行参数添加 ViT CUDA 图编译配置。
    如果启用且模型支持，则设置 compilation_config 为 JSON 字符串。
    """
    model = args.model_type
    modality = args.modality
    enable_vit_cuda_graph = args.enable_vit_cuda_graph

    if enable_vit_cuda_graph and model in MODELS_SUPPORT_VIT_CUDA_GRAPH:
        # 根据输入模态确定每批视觉项数量
        if modality == "image" or modality == "video":
            vision_items_per_batch = 1
        elif modality == "image+video":
            vision_items_per_batch = 2
        else:
            raise ValueError(
                f"modality={modality} is not supported for vit cuda graph."
            )

        # 构建配置字典并序列化为 JSON 字符串
        import json
        config = json.loads(engine_args.compilation_config) if engine_args.compilation_config else {}
        config.update({
            "cudagraph_mm_encoder": True,
            "encoder_cudagraph_max_vision_items_per_batch": vision_items_per_batch,
        })
        engine_args.compilation_config = json.dumps(config)

    return engine_args

vllm/model_executor/models/qwen3_vl.py core-logic

调整了 CUDA 图预算计算函数，确保 max_budget 不超过 max_model_len，避免运行时错误。

def get_encoder_cudagraph_budget_range(self, vllm_config) -> tuple[int, int]:
    """
    返回 ViT 编码器 CUDA 图的预算范围。
    最小预算基于图像 patch 计算，最大预算取 max_num_batched_tokens 和 max_model_len 的最小值。
    """
    # Min: estimated smallest possible encoder input.
    # 224x224 image → 16x16 patches (patch_size=14)
    # spatial_merge_size=2 → 8x8 = 64 tokens
    min_budget = 64
    # Max: capped by max_num_batched_tokens
    # TODO(shen-shanshan): the max_budget auto-infer needs to be optimized later.
    max_budget = min(
        vllm_config.scheduler_config.max_num_batched_tokens,
        self.model_config.max_model_len,
    )
    return (min_budget, max_budget)

评论区精华

compilation_config 格式正确性 正确性

gemini-code-assist[bot] 指出 engine_args.compilation_config 应为 JSON 字符串，直接赋值字典会导致 TypeError。

结论：作者在后续提交中修复，通过 json.loads 和 json.dumps 正确处理配置。 · 已解决

max_budget 计算设计 设计

DarkLight1337 询问预算是否可自动推断，并讨论 max_budget 是否需基于 max_model_len；shen-shanshan 回应测试中 max_num_batched_tokens 可能超过 max_model_len 导致错误。

结论：暂用 min 限制 max_budget，并添加 TODO 注释以待后续优化。 · partially_resolved

风险与影响

配置错误风险：如果 compilation_config 未正确序列化为 JSON 字符串，可能引发引擎初始化失败。
预算计算未优化：get_encoder_cudagraph_budget_range 中的 max_budget 计算可能过于保守，影响 CUDA 图性能优化潜力。
模型兼容性限制：仅支持 Qwen3 VL 系列模型，其他 VLM 无法使用此功能，可能导致用户困惑。

对用户：提供新命令行选项，方便启用 ViT CUDA 图以提升推理速度，但仅适用于特定模型。
对系统：可能减少多模态编码器延迟，但需确保 CUDA 图捕获稳定，避免运行时错误。
对团队：示例代码更丰富，展示了 CUDA 图在多模态场景的应用，但预算计算逻辑需后续完善。

配置格式风险预算计算未优化

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：为视觉语言模型示例添加 CUDA 图编译支持选项。
推荐动作：建议关注 maybe_add_vit_cuda_graph_compilation_config 函数的配置逻辑和 get_encoder_cudagraph_budget_range 的设计权衡，了解 CUDA 图优化在多模态推理中的实现方式。

功能与动机

根据 PR body，目的是支持 VLM 示例中的 --enable-vit-cuda-graph 选项，以启用 ViT CUDA 图捕获和重放，优化模型推理性能。

实现拆解

添加命令行参数：在 examples/offline_inference/vision_language.py 的 parse_args 函数中添加 --enable-vit-cuda-graph 标志，提供用户启用选项。
定义支持模型列表：在同一文件中添加 MODELS_SUPPORT_VIT_CUDA_GRAPH 常量，目前包括 "qwen3_vl" 和 "qwen3_vl_moe"，用于限制功能范围。
实现配置函数：新增 maybe_add_vit_cuda_graph_compilation_config 函数，根据参数和模态设置 engine_args.compilation_config 为 JSON 字符串，包含 cudagraph_mm_encoder 和 encoder_cudagraph_max_vision_items_per_batch 键。
调整模型预算计算：修改 vllm/model_executor/models/qwen3_vl.py 中的 get_encoder_cudagraph_budget_range 函数，用 min 限制 max_budget 为 max_num_batched_tokens 和 max_model_len 的最小值，并添加 TODO 注释以优化后续。
集成到主流程：在 vision_language.py 的 main 函数中调用配置函数，确保引擎参数正确设置。
本次改动不包含测试或部署配套。

关键文件：

examples/offline_inference/vision_language.py（模块示例脚本；类别 source；类型 core-logic；符号 maybe_add_vit_cuda_graph_compilation_config, MODELS_SUPPORT_VIT_CUDA_GRAPH）: 主要变更文件，添加了命令行参数、支持模型列表和配置函数，是实现 CUDA 图支持的核心入口。
vllm/model_executor/models/qwen3_vl.py（模块模型执行器；类别 source；类型 core-logic；符号 get_encoder_cudagraph_budget_range）: 调整了 CUDA 图预算计算函数，确保 max_budget 不超过 max_model_len，避免运行时错误。

关键符号：maybe_add_vit_cuda_graph_compilation_config, get_encoder_cudagraph_budget_range

关键源码片段

`examples/offline_inference/vision_language.py`

主要变更文件，添加了命令行参数、支持模型列表和配置函数，是实现 CUDA 图支持的核心入口。

def maybe_add_vit_cuda_graph_compilation_config(args, engine_args):
    """
    根据命令行参数添加 ViT CUDA 图编译配置。
    如果启用且模型支持，则设置 compilation_config 为 JSON 字符串。
    """
    model = args.model_type
    modality = args.modality
    enable_vit_cuda_graph = args.enable_vit_cuda_graph

    if enable_vit_cuda_graph and model in MODELS_SUPPORT_VIT_CUDA_GRAPH:
        # 根据输入模态确定每批视觉项数量
        if modality == "image" or modality == "video":
            vision_items_per_batch = 1
        elif modality == "image+video":
            vision_items_per_batch = 2
        else:
            raise ValueError(
                f"modality={modality} is not supported for vit cuda graph."
            )

        # 构建配置字典并序列化为 JSON 字符串
        import json
        config = json.loads(engine_args.compilation_config) if engine_args.compilation_config else {}
        config.update({
            "cudagraph_mm_encoder": True,
            "encoder_cudagraph_max_vision_items_per_batch": vision_items_per_batch,
        })
        engine_args.compilation_config = json.dumps(config)

    return engine_args

`vllm/model_executor/models/qwen3_vl.py`

调整了 CUDA 图预算计算函数，确保 max_budget 不超过 max_model_len，避免运行时错误。

def get_encoder_cudagraph_budget_range(self, vllm_config) -> tuple[int, int]:
    """
    返回 ViT 编码器 CUDA 图的预算范围。
    最小预算基于图像 patch 计算，最大预算取 max_num_batched_tokens 和 max_model_len 的最小值。
    """
    # Min: estimated smallest possible encoder input.
    # 224x224 image → 16x16 patches (patch_size=14)
    # spatial_merge_size=2 → 8x8 = 64 tokens
    min_budget = 64
    # Max: capped by max_num_batched_tokens
    # TODO(shen-shanshan): the max_budget auto-infer needs to be optimized later.
    max_budget = min(
        vllm_config.scheduler_config.max_num_batched_tokens,
        self.model_config.max_model_len,
    )
    return (min_budget, max_budget)

评论区精华

配置格式问题：gemini-code-assist[bot] 指出 compilation_config 必须是 JSON 字符串而非字典，否则会导致 TypeError；作者在后续提交中修复此问题。
预算计算争议：DarkLight1337 询问预算是否可自动推断，并讨论 max_budget 计算是否需基于 max_model_len；shen-shanshan 回应测试中 max_num_batched_tokens 可能超过 max_model_len，导致运行时错误，因此添加 min 限制和 TODO 注释。
结论：配置格式问题已解决，预算计算暂用保守方式，留待后续优化。
- compilation_config 格式正确性 (correctness): 作者在后续提交中修复，通过 json.loads 和 json.dumps 正确处理配置。
- max_budget 计算设计 (design): 暂用 min 限制 max_budget，并添加 TODO 注释以待后续优化。

风险与影响

风险：
- 配置错误风险：如果 compilation_config 未正确序列化为 JSON 字符串，可能引发引擎初始化失败。
- 预算计算未优化：get_encoder_cudagraph_budget_range 中的 max_budget 计算可能过于保守，影响 CUDA 图性能优化潜力。
- 模型兼容性限制：仅支持 Qwen3 VL 系列模型，其他 VLM 无法使用此功能，可能导致用户困惑。
影响：
- 对用户：提供新命令行选项，方便启用 ViT CUDA 图以提升推理速度，但仅适用于特定模型。
- 对系统：可能减少多模态编码器延迟，但需确保 CUDA 图捕获稳定，避免运行时错误。
- 对团队：示例代码更丰富，展示了 CUDA 图在多模态场景的应用，但预算计算逻辑需后续完善。
- 风险标记：配置格式风险, 预算计算未优化

关联脉络

PR #40394 FlexAttention non-causal support: 同样涉及注意力后端优化，虽非直接相关，但展示了 vLLM 中性能改进的持续趋势。
PR #40560 [MoE Refactor] Combine MoERunnerBase + DefaultMoERunner: 涉及模型执行器重构，与本 PR 中模型文件调整类似，反映代码清理和优化方向。

#40580 [MM][CG] Support `--enable-vit-cuda-graph` option for VLM examples

执行摘要

为视觉语言模型示例添加 CUDA 图编译支持选项。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论