#40355 [Doc] Update ViT CUDA graph doc for mixed (image+video) inputs

原始 PR 作者 shen-shanshan 合并时间 2026-04-21 10:31 文件变更 1 提交数 1 评论 1 代码增减 +2 / -5

执行摘要

更新多模态 CUDA 图文档，确认支持图像 + 视频混合输入。

根据PR描述，在PR #35963和PR #38061分别支持ViT CUDA图的图像和视频推理后，现在已确认代码实现也兼容每个提示中的图像+视频混合输入。由于_execute_mm_encoder()通过group_and_batch_mm_kwargs()对多模态输入进行分组和批处理，每次encoder_cudagraph_manager.execute()调用只包含单一模态，因此混合输入会被分离到不同的ViT处理流程中，与CUDA图实现兼容。需要更新文档以反映这一进展。

此PR是纯粹的文档更新，无需深入阅读代码。对于想了解多模态CUDA图支持边界的开发者，可以快速浏览此文档变更以获取最新信息。关注点在于文档如何反映底层_execute_mm_encoder和group_and_batch_mm_kwargs的分组批处理机制对混合输入的支持。

讨论亮点

review中无实质性技术讨论。gemini-code-assist[bot]的评论总结了文档变更内容：“更新多模态CUDA图文档，反映视频推理支持不再是实验性的，并且现在支持每个提示中的图像+视频混合输入。相应地移除了示例和限制多模态输入的建议。”Isotr0py直接批准了PR。

实现拆解

更新文档状态说明：在docs/design/cuda_graphs_multimodal.md中，将“Video inference support (experimental)”标题改为“Video inference support”，移除了“实验性”标记。
修正功能限制描述：将“Currently, we only support image-only or video-only inputs when enabling CUDA graph, mixed inputs (image + video) are not supported yet”改为“Mixed inputs (image+video) per prompt are also supported now”，明确现在支持混合输入。
清理配置示例：在文档的配置示例中，移除了所有--limit-mm-per-prompt '{"image": 0}'参数，因为不再需要限制图像模态来支持视频输入。
无代码或测试变更：此PR仅涉及文档更新，没有修改任何源代码、测试或配置文件。

文件	模块	状态	重要度
`docs/design/cuda_graphs_multimodal.md`	设计文档	modified	2.23

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

技术风险极低：

此PR仅修改文档，不涉及任何代码逻辑变更，因此不存在回归、性能、安全或兼容性风险。
文档更新的准确性依赖于底层代码实现（如_execute_mm_encoder和group_and_batch_mm_kwargs）确实支持混合输入，但这是PR描述中已确认的事实。
唯一潜在风险是文档描述与最新代码实现不同步，但此PR正是为了解决这一问题。

影响范围有限：

对用户：澄清了功能支持状态，用户现在可以明确知道图像+视频混合输入在CUDA图模式下是受支持的，无需再通过--limit-mm-per-prompt限制图像模态。这改善了用户体验和配置简洁性。
对系统：无影响，因为未修改任何运行时代码。
对团队：保持了设计文档与代码实现的一致性，有助于新开发者准确理解系统能力。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：更新多模态CUDA图文档，确认支持图像+视频混合输入。
推荐动作：此PR是纯粹的文档更新，无需深入阅读代码。对于想了解多模态CUDA图支持边界的开发者，可以快速浏览此文档变更以获取最新信息。关注点在于文档如何反映底层_execute_mm_encoder和group_and_batch_mm_kwargs的分组批处理机制对混合输入的支持。

功能与动机

实现拆解

更新文档状态说明：在docs/design/cuda_graphs_multimodal.md中，将“Video inference support (experimental)”标题改为“Video inference support”，移除了“实验性”标记。
修正功能限制描述：将“Currently, we only support image-only or video-only inputs when enabling CUDA graph, mixed inputs (image + video) are not supported yet”改为“Mixed inputs (image+video) per prompt are also supported now”，明确现在支持混合输入。
清理配置示例：在文档的配置示例中，移除了所有--limit-mm-per-prompt '{"image": 0}'参数，因为不再需要限制图像模态来支持视频输入。
无代码或测试变更：此PR仅涉及文档更新，没有修改任何源代码、测试或配置文件。

关键文件：

docs/design/cuda_graphs_multimodal.md（模块设计文档；类别 docs；类型 documentation）: 这是唯一被修改的文件，包含了多模态CUDA图的设计说明和配置示例，直接面向用户和开发者。

关键符号：未识别

评论区精华

暂无高价值评论线程

风险与影响

风险：技术风险极低：
- 此PR仅修改文档，不涉及任何代码逻辑变更，因此不存在回归、性能、安全或兼容性风险。
- 文档更新的准确性依赖于底层代码实现（如_execute_mm_encoder和group_and_batch_mm_kwargs）确实支持混合输入，但这是PR描述中已确认的事实。
- 唯一潜在风险是文档描述与最新代码实现不同步，但此PR正是为了解决这一问题。
影响：影响范围有限：
- 对用户：澄清了功能支持状态，用户现在可以明确知道图像+视频混合输入在CUDA图模式下是受支持的，无需再通过--limit-mm-per-prompt限制图像模态。这改善了用户体验和配置简洁性。
- 对系统：无影响，因为未修改任何运行时代码。
- 对团队：保持了设计文档与代码实现的一致性，有助于新开发者准确理解系统能力。
- 风险标记：暂无

关联脉络

PR #35963 [ViT] Full CUDA graph support for image inference: 此PR引入了ViT图像推理的完整CUDA图支持，是当前文档更新的基础之一，文档中直接引用了该PR。
PR #38061 [ViT] Extend encoder CUDA graph framework to support video inference for Qwen3-VL: 此PR将编码器CUDA图框架扩展到支持Qwen3-VL的视频推理，是当前文档更新的另一基础，文档中直接引用了该PR。
PR #40335 根据历史PR分析未提供标题，但PR描述中提及了此PR作为测试计划的基础: PR描述中的测试计划基于此PR，可能涉及相关测试或示例更新。

#40355 [Doc] Update ViT CUDA graph doc for mixed (image+video) inputs

执行摘要

更新多模态 CUDA 图文档，确认支持图像 + 视频混合输入。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论