#42288 Adjust design around encoder_cudagraph_forward

原始 PR 作者 wdhongtw 合并时间 2026-05-29 11:02 文件变更 8 提交数 1 评论 41 代码增减 +105 / -154

执行摘要

简化 encoder CUDA graph 接口，统一输入结构

PR 源于 ViT 全 CUDA 图 RFC（#38175）的追踪。原有设计将 mm_kwargs（包括仅用于确定输入尺寸的元数据如 grid_thw）和预先计算的 buffers（如 rotary_pos_emb）分开传入 forward 函数，导致函数参数与捕获图实际依赖的固定形状输入不一致，也使 JAX 编译时因 grid_thw 存在而无法稳定编译。本 PR 旨在通过合并所有固定形状输入到 values 字典，使 encoder_cudagraph_forward 只接收与图计算相关的输入，提升接口清晰性并支持其他加速器直接追踪计算图。

值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程，设计权衡清晰（分离 vs 合并 input/metadata）。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向（RFC #38175）很有帮助，也揭示了如何通过接口调整支持非 GPU 后端。

讨论亮点

depthfirst-app[bot]: Qwen2-VL 中 buffer_keys 存在 'pixel_valuesrotary_pos_emb_cos' 拼写错误，导致 pixel_values 键名无效，重放时不会更新，可能造成跨请求数据泄露。（已修复）
Isotr0py: 对于需要多个独立输入张量的 ViT（如 DeepSeek OCR 的 coupled vision towers），仅靠单个 pixel_values 键可能不够通用，当前设计可能需要进一步扩展。
wdhongtw: 承认通用性问题，提出两种解决方案，最终采用合并所有输入到 values 的折中方案，避免分离 input 和 metadata 的复杂性。
shen-shanshan 和 Isotr0py 最终批准，认为重构显著提升了清晰性和可维护性。

实现拆解

统一数据结构（encoder_cudagraph_defs.py）：将 EncoderCudaGraphCaptureInputs 和 EncoderCudaGraphReplayBuffers 的 mm_kwargs + buffers 字段合并为单一的 values 字段（类型为 dict[str, torch.Tensor]）；从 EncoderCudaGraphConfig 中移除 input_key_by_modality，将 pixel_values 等输入直接加入 buffer_keys。
简化管理类（encoder_cudagraph.py）：在 BudgetGraphMetadata 中合并 input_buffer 和 metadata_buffers 为统一的 input_buffers 字典；修改 _capture_budget_graph 方法，直接使用 capture_inputs.values 创建 CUDA 图和 BudgetGraphMetadata，不再区分两种缓冲区。
调整重放流程（encoder_cudagraph.py _run_budget_graph）：将原本分别写入 input_buffer 和 metadata_buffers 的步骤简化为统一扫描并写入 input_buffers，利用 padding_logics 进行形状不匹配时的填充。
模型适配（qwen2_vl.py, qwen2_5_vl.py, qwen3_vl.py, step3_vl.py）：将各模型的 encoder_cudagraph_forward 签名从 (mm_kwargs, buffers) 改为 (values)，在函数内部将 pixel_values 从 values 中弹出，剩余内容作为 encoder_metadata 传递给视觉骨干；同步修改 prepare_encoder_cudagraph_capture_inputs 和 prepare_encoder_cudagraph_replay_buffers 返回统一的 values。
测试与修复：更新 test_encoder_cudagraph.py 中的 mock 模型和断言以匹配新接口；修复了 Qwen2-VL 中 buffer_keys 的一项拼写错误（pixel_values 和 rotary_pos_emb_cos 被错误连接成单个字符串），确保重放时键名匹配。

文件	模块	状态	重要度
`vllm/v1/worker/encoder_cudagraph.py`	CUDA 图管理	modified	6.74
`vllm/v1/worker/encoder_cudagraph_defs.py`	数据契约	modified	6.16
`vllm/model_executor/models/qwen2_vl.py`	模型适配	modified	6.86
`vllm/model_executor/models/qwen2_5_vl.py`	模型适配	modified	6.58
`vllm/model_executor/models/qwen3_vl.py`	模型适配	modified	6.56
`vllm/model_executor/models/step3_vl.py`	模型适配	modified	6.44
`tests/v1/cudagraph/test_encoder_cudagraph.py`	测试	modified	6.03
`vllm/model_executor/models/interfaces.py`	接口	modified	5.32

关键符号

BudgetGraphMetadata EncoderCudaGraphManager EncoderCudaGraphCaptureInputs EncoderCudaGraphReplayBuffers _capture_budget_graph _run_budget_graph encoder_cudagraph_forward prepare_encoder_cudagraph_capture_inputs prepare_encoder_cudagraph_replay_buffers get_encoder_cudagraph_config

关键源码片段

vllm/v1/worker/encoder_cudagraph.py core-logic

核心管理类，统一 input_buffer 和 metadata_buffers 为 input_buffers，简化 capture/replay 流程

@dataclass
class BudgetGraphMetadata:
    """单个预算下的 CUDA 图元数据。

    CUDA 图重放流程：
    * 将预计算好的 input_buffers （包括 pixel_values 和所有元数据）复制到图捕获的固定缓冲区
    * 重放图
    * 从 output_buffer 读取编码器输出
    """
    token_budget: int
    max_batch_size: int
    max_frames_per_batch: int
    graph: torch.cuda.CUDAGraph
    # 所有需要在图重放前更新的缓冲区，合并了原来的 input_buffer + metadata_buffers
    input_buffers: dict[str, torch.Tensor]
    output_buffer: torch.Tensor


class EncoderCudaGraphManager:
    ...
    def _capture_budget_graph(self, token_budget: int):
        capture_inputs = self.model.prepare_encoder_cudagraph_capture_inputs(
            token_budget, self.max_batch_size, self.max_frames_per_batch,
            self.device, self.dtype)
        values = capture_inputs.values # 统一 values 字典，同时包含 pixel_values 和元数据

        with torch.inference_mode():
            output = self.model.encoder_cudagraph_forward({**values})
            output_buffer = torch.empty_like(output)

        graph = torch.cuda.CUDAGraph()
        with torch.inference_mode(), torch.cuda.graph(graph):
            output = self.model.encoder_cudagraph_forward({**values})
            output_buffer.copy_(output)

        # 不再需要分别记录 input_buffer 和 metadata_buffers，统一为 input_buffers
        self.budget_graphs[token_budget] = BudgetGraphMetadata(
            token_budget=token_budget,
            max_batch_size=self.max_batch_size,
            max_frames_per_batch=self.max_frames_per_batch,
            graph=graph,
            input_buffers=values, # 整体保存
            output_buffer=output_buffer,
        )

vllm/model_executor/models/qwen3_vl.py data-contract

模型适配，且是主要参考实现

def encoder_cudagraph_forward(
    self,
    values: dict[str, torch.Tensor], # 统一包含 pixel_values 和所有元数据
) -> torch.Tensor:
    # 从 values 中弹出一个 pixel_values 作为视觉输入，剩余部分作为 encoder_metadata
    pixel_values = values.pop("pixel_values")
    metadata = values # 剩余键如 rotary_pos_emb_cos, cu_seqlens 等均视为元数据
    # 原来需要从 mm_kwargs 和 buffers 分别提取，现在统一处理
    return self.visual(pixel_values, None, encoder_metadata=metadata)

评论区精华

Qwen2-VL buffer_keys 拼写错误可能导致跨请求数据泄露 正确性

depthfirst-app[bot] 指出 buffer_keys 中存在 'pixel_valuesrotary_pos_emb_cos' 的错误连接，导致 pixel_values 键名无效，重放时不会更新，复用旧数据

结论：作者确认并修复，将键名分开 · 已解决

单个 pixel_values 输入无法覆盖需要多独立张量的 ViT（如 DeepSeek OCR） 设计

Isotr0py 指出对于耦合视觉塔的模型，仅靠 pixel_values 不够，建议考虑扩展性

结论：作者承认并采用合并 inputs 的方案作为折中，后续可能需要进一步改进 · 待处理

是否应将 metadata 与 input 分离放在不同的缓冲区 设计

作者最初想严格分离 input 和 metadata，但 Isotr0py 倾向于统一，最终实现了统一 values 的方案

结论：采用统一 values 方案，简化接口 · 已解决

风险与影响

跨请求数据泄露风险（已修复）：Qwen2-VL 中 buffer_keys 拼写错误导致 pixel_values 缓冲区在重放时不会被更新，使用前一次请求的陈旧数据。该问题已在最终版本中修复。
通用性不足：当前设计将所有输入合并为单一 dict，对于需要多个不可合并独立张量的 ViT（如 DeepSeek OCR 的多塔耦合）可能无法直接支持，未来需要扩展。
测试覆盖局限：测试仅覆盖了 Qwen 系列 ViT（Qwen2/2.5/3-VL），未验证其他架构（如 CLIP、SigLIP、LLaVA），存在回归风险。
向后兼容性：接口变更要求所有自定义 SupportsEncoderCudaGraph 实现同步更新，否则会编译错误。

直接影响所有启用 encoder CUDA graph 的 v1 多模态模型（Qwen2/2.5/3-VL、Step3-VL）。用户无感知，功能正确性不变。接口清晰化降低了后续维护成本，并为 TPU 等非 GPU 后端白盒复用同一协议提供了基础。团队内需注意新模型接入时遵循新的 values 接口约定。

跨请求数据泄露风险设计通用性未充分验证测试覆盖仅限 Qwen 模型依赖接口更改的向后兼容性

关联 Issue

#38175 [RFC]: Support ViT Full CUDA Graph (Tracker)

完整报告

执行摘要

一句话：简化 encoder CUDA graph 接口，统一输入结构
推荐动作：值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程，设计权衡清晰（分离 vs 合并 input/metadata）。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向（RFC #38175）很有帮助，也揭示了如何通过接口调整支持非 GPU 后端。

功能与动机

实现拆解

统一数据结构（encoder_cudagraph_defs.py）：将 EncoderCudaGraphCaptureInputs 和 EncoderCudaGraphReplayBuffers 的 mm_kwargs + buffers 字段合并为单一的 values 字段（类型为 dict[str, torch.Tensor]）；从 EncoderCudaGraphConfig 中移除 input_key_by_modality，将 pixel_values 等输入直接加入 buffer_keys。
简化管理类（encoder_cudagraph.py）：在 BudgetGraphMetadata 中合并 input_buffer 和 metadata_buffers 为统一的 input_buffers 字典；修改 _capture_budget_graph 方法，直接使用 capture_inputs.values 创建 CUDA 图和 BudgetGraphMetadata，不再区分两种缓冲区。
调整重放流程（encoder_cudagraph.py _run_budget_graph）：将原本分别写入 input_buffer 和 metadata_buffers 的步骤简化为统一扫描并写入 input_buffers，利用 padding_logics 进行形状不匹配时的填充。
模型适配（qwen2_vl.py, qwen2_5_vl.py, qwen3_vl.py, step3_vl.py）：将各模型的 encoder_cudagraph_forward 签名从 (mm_kwargs, buffers) 改为 (values)，在函数内部将 pixel_values 从 values 中弹出，剩余内容作为 encoder_metadata 传递给视觉骨干；同步修改 prepare_encoder_cudagraph_capture_inputs 和 prepare_encoder_cudagraph_replay_buffers 返回统一的 values。
测试与修复：更新 test_encoder_cudagraph.py 中的 mock 模型和断言以匹配新接口；修复了 Qwen2-VL 中 buffer_keys 的一项拼写错误（pixel_values 和 rotary_pos_emb_cos 被错误连接成单个字符串），确保重放时键名匹配。

关键文件：

vllm/v1/worker/encoder_cudagraph.py（模块 CUDA图管理；类别 source；类型 core-logic；符号 BudgetGraphMetadata, EncoderCudaGraphManager, _capture_budget_graph, _run_budget_graph）: 核心管理类，统一 input_buffer 和 metadata_buffers 为 input_buffers，简化 capture/replay 流程
vllm/v1/worker/encoder_cudagraph_defs.py（模块数据契约；类别 source；类型 dependency-wiring；符号 EncoderCudaGraphCaptureInputs, EncoderCudaGraphReplayBuffers, EncoderCudaGraphConfig）: 定义 EncoderCudaGraphCaptureInputs/ReplayBuffers 等数据结构，移除 input_key_by_modality
vllm/model_executor/models/qwen2_vl.py（模块模型适配；类别 source；类型 data-contract；符号 encoder_cudagraph_forward, prepare_encoder_cudagraph_capture_inputs, prepare_encoder_cudagraph_replay_buffers, get_encoder_cudagraph_config）: 模型适配，修改 encoder_cudagraph_forward 等接口，修复 buffer_keys 拼写错误
vllm/model_executor/models/qwen2_5_vl.py（模块模型适配；类别 source；类型 data-contract；符号 encoder_cudagraph_forward, prepare_encoder_cudagraph_capture_inputs, prepare_encoder_cudagraph_replay_buffers, get_encoder_cudagraph_config）: 模型适配，同上
vllm/model_executor/models/qwen3_vl.py（模块模型适配；类别 source；类型 data-contract；符号 encoder_cudagraph_forward, prepare_encoder_cudagraph_capture_inputs, prepare_encoder_cudagraph_replay_buffers, get_encoder_cudagraph_config）: 模型适配，且是主要参考实现
vllm/model_executor/models/step3_vl.py（模块模型适配；类别 source；类型 data-contract；符号 encoder_cudagraph_forward, prepare_encoder_cudagraph_capture_inputs, prepare_encoder_cudagraph_replay_buffers, get_encoder_cudagraph_config）: 模型适配，Step3-VL 多模态模型
tests/v1/cudagraph/test_encoder_cudagraph.py（模块测试；类别 test；类型 test-coverage；符号 test_video_model_config_has_both_modalities）: 测试文件，更新 mock 模型和断言以匹配新接口
vllm/model_executor/models/interfaces.py（模块接口；类别 source；类型 data-contract）: 接口文件，移除了不再需要的 import

关键符号：BudgetGraphMetadata, EncoderCudaGraphManager, EncoderCudaGraphCaptureInputs, EncoderCudaGraphReplayBuffers, _capture_budget_graph, _run_budget_graph, encoder_cudagraph_forward, prepare_encoder_cudagraph_capture_inputs, prepare_encoder_cudagraph_replay_buffers, get_encoder_cudagraph_config

关键源码片段

`vllm/v1/worker/encoder_cudagraph.py`

核心管理类，统一 input_buffer 和 metadata_buffers 为 input_buffers，简化 capture/replay 流程

@dataclass
class BudgetGraphMetadata:
    """单个预算下的 CUDA 图元数据。

    CUDA 图重放流程：
    * 将预计算好的 input_buffers （包括 pixel_values 和所有元数据）复制到图捕获的固定缓冲区
    * 重放图
    * 从 output_buffer 读取编码器输出
    """
    token_budget: int
    max_batch_size: int
    max_frames_per_batch: int
    graph: torch.cuda.CUDAGraph
    # 所有需要在图重放前更新的缓冲区，合并了原来的 input_buffer + metadata_buffers
    input_buffers: dict[str, torch.Tensor]
    output_buffer: torch.Tensor


class EncoderCudaGraphManager:
    ...
    def _capture_budget_graph(self, token_budget: int):
        capture_inputs = self.model.prepare_encoder_cudagraph_capture_inputs(
            token_budget, self.max_batch_size, self.max_frames_per_batch,
            self.device, self.dtype)
        values = capture_inputs.values # 统一 values 字典，同时包含 pixel_values 和元数据

        with torch.inference_mode():
            output = self.model.encoder_cudagraph_forward({**values})
            output_buffer = torch.empty_like(output)

        graph = torch.cuda.CUDAGraph()
        with torch.inference_mode(), torch.cuda.graph(graph):
            output = self.model.encoder_cudagraph_forward({**values})
            output_buffer.copy_(output)

        # 不再需要分别记录 input_buffer 和 metadata_buffers，统一为 input_buffers
        self.budget_graphs[token_budget] = BudgetGraphMetadata(
            token_budget=token_budget,
            max_batch_size=self.max_batch_size,
            max_frames_per_batch=self.max_frames_per_batch,
            graph=graph,
            input_buffers=values, # 整体保存
            output_buffer=output_buffer,
        )

`vllm/model_executor/models/qwen3_vl.py`

模型适配，且是主要参考实现

def encoder_cudagraph_forward(
    self,
    values: dict[str, torch.Tensor], # 统一包含 pixel_values 和所有元数据
) -> torch.Tensor:
    # 从 values 中弹出一个 pixel_values 作为视觉输入，剩余部分作为 encoder_metadata
    pixel_values = values.pop("pixel_values")
    metadata = values # 剩余键如 rotary_pos_emb_cos, cu_seqlens 等均视为元数据
    # 原来需要从 mm_kwargs 和 buffers 分别提取，现在统一处理
    return self.visual(pixel_values, None, encoder_metadata=metadata)

评论区精华

depthfirst-app[bot]: Qwen2-VL 中 buffer_keys 存在 'pixel_valuesrotary_pos_emb_cos' 拼写错误，导致 pixel_values 键名无效，重放时不会更新，可能造成跨请求数据泄露。（已修复）
Isotr0py: 对于需要多个独立输入张量的 ViT（如 DeepSeek OCR 的 coupled vision towers），仅靠单个 pixel_values 键可能不够通用，当前设计可能需要进一步扩展。
wdhongtw: 承认通用性问题，提出两种解决方案，最终采用合并所有输入到 values 的折中方案，避免分离 input 和 metadata 的复杂性。
shen-shanshan 和 Isotr0py 最终批准，认为重构显著提升了清晰性和可维护性。

Qwen2-VL buffer_keys 拼写错误可能导致跨请求数据泄露 (correctness): 作者确认并修复，将键名分开
单个 pixel_values 输入无法覆盖需要多独立张量的 ViT（如 DeepSeek OCR） (design): 作者承认并采用合并 inputs 的方案作为折中，后续可能需要进一步改进
是否应将 metadata 与 input 分离放在不同的缓冲区 (design): 采用统一 values 方案，简化接口

风险与影响

风险：
1. 跨请求数据泄露风险（已修复）：Qwen2-VL 中 buffer_keys 拼写错误导致 pixel_values 缓冲区在重放时不会被更新，使用前一次请求的陈旧数据。该问题已在最终版本中修复。
2. 通用性不足：当前设计将所有输入合并为单一 dict，对于需要多个不可合并独立张量的 ViT（如 DeepSeek OCR 的多塔耦合）可能无法直接支持，未来需要扩展。
3. 测试覆盖局限：测试仅覆盖了 Qwen 系列 ViT（Qwen2/2.5/3-VL），未验证其他架构（如 CLIP、SigLIP、LLaVA），存在回归风险。
4. 向后兼容性：接口变更要求所有自定义 SupportsEncoderCudaGraph 实现同步更新，否则会编译错误。
  - 影响：直接影响所有启用 encoder CUDA graph 的 v1 多模态模型（Qwen2/2.5/3-VL、Step3-VL）。用户无感知，功能正确性不变。接口清晰化降低了后续维护成本，并为 TPU 等非 GPU 后端白盒复用同一协议提供了基础。团队内需注意新模型接入时遵循新的 values 接口约定。
  - 风险标记：跨请求数据泄露风险, 设计通用性未充分验证, 测试覆盖仅限Qwen模型, 依赖接口更改的向后兼容性

关联脉络

PR #38175 [RFC]: Support ViT Full CUDA Graph (Tracker): 本 PR 是该 RFC 中的具体实现步骤，旨在重构接口以便最终支持全 CUDA 图
PR #35963 [MM] Standardize model computation description for static graph capture: PR body 提及该 PR 标准化了静态图描述，本 PR 在此基础上调整接口
PR #41234 Merge logic from both graph tracing and eager mode (approximate): PR body 提到本 PR 曾与 #41234 冲突，后 #41234 调整范围避免冲突

#42288 Adjust design around encoder_cudagraph_forward

执行摘要

简化 encoder CUDA graph 接口，统一输入结构

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论