# PR #44388 完整报告

- 仓库：`vllm-project/vllm`
- 标题：[Doc] Update ViT CUDA graph interfaces
- 合并时间：2026-06-03 16:21
- 原文链接：http://prhub.com.cn/vllm-project/vllm/pull/44388

---

# 执行摘要

- 一句话：更新 ViT CUDA 图文档，同步代码变更
- 推荐动作：此 PR 是纯粹的文档同步更新，对大多数工程师无需精读。但若您正在使用或开发 ViT CUDA 图系统，建议查看此文档以了解最新的 API 和流程。

# 功能与动机

PR 的 body 明确指出目的是解决 PR #41234 的评论中的问题，并同步更新文档以匹配 PR #41234 和 #42288 中的实际代码变更。

# 实现拆解

1. **新增 `EncoderItemSpec` 定义**：在术语表中新增 `EncoderItemSpec` 类的描述，该类用于描述单个编码器输入项（图像或视频）及其输入大小和输出 token 数。
2. **合并缓冲区字段**：将 `BudgetGraphMetadata` 中的 `input_buffer` 和 `metadata_buffers` 合并为单一的 `input_buffers` 字典，以反映代码中统一缓冲区设计的变更。
3. **更新 replay 步骤**：将原先手动清零并拷贝 `input_buffer` 和 `metadata_buffers` 的步骤替换为调用 `prepare_encoder_cudagraph_replay_buffers()` 方法，然后清零并拷贝合并后的 `input_buffers` 字典。
4. **更新模型协议方法签名**：将 `get_encoder_cudagraph_config()` 的返回描述从“supported modalities, input key, buffer keys, output hidden size”更新为“supported modalities, buffer keys, output hidden size, padding logics, max frames per video”，并删除 `get_encoder_cudagraph_num_items` 和 `get_encoder_cudagraph_per_item_output_tokens` 方法（它们已从协议中移除）。

关键文件：
- `docs/design/cuda_graphs_multimodal.md`（模块 文档；类别 docs；类型 documentation）: 唯一修改的文件，同步更新了 ViT CUDA 图文档以匹配代码重构。

关键符号：未识别


# 评论区精华

此 PR 没有 review 评论。唯一审核者 Isotr0py 直接批准，表明变更直接且没有争议。

- 暂无高价值评论线程

# 风险与影响

- 风险：无风险。此 PR 仅修改文档，不涉及任何代码或配置变更。
- 影响：影响范围非常有限，仅影响阅读该文档的开发者。文档更新确保了接口变更的正确传达，有助于减少使用者的困惑。
- 风险标记：暂无

# 关联脉络

- PR #41234 ViT full CUDA graph refactor: 此 PR 是基于该 PR 的代码变更同步更新文档。
- PR #42288 Encoder CUDA graph improvements: 此 PR 是基于该 PR 的代码变更同步更新文档。