Prhub

#40355 [Doc] Update ViT CUDA graph doc for mixed (image+video) inputs

原始 PR 作者 shen-shanshan 合并时间 2026-04-21 10:31 文件变更 1 提交数 1 评论 1 代码增减 +2 / -5

执行摘要

更新多模态 CUDA 图文档,确认支持图像 + 视频混合输入。

根据PR描述,在PR #35963和PR #38061分别支持ViT CUDA图的图像和视频推理后,现在已确认代码实现也兼容每个提示中的图像+视频混合输入。由于_execute_mm_encoder()通过group_and_batch_mm_kwargs()对多模态输入进行分组和批处理,每次encoder_cudagraph_manager.execute()调用只包含单一模态,因此混合输入会被分离到不同的ViT处理流程中,与CUDA图实现兼容。需要更新文档以反映这一进展。

此PR是纯粹的文档更新,无需深入阅读代码。对于想了解多模态CUDA图支持边界的开发者,可以快速浏览此文档变更以获取最新信息。关注点在于文档如何反映底层_execute_mm_encodergroup_and_batch_mm_kwargs的分组批处理机制对混合输入的支持。

讨论亮点

review中无实质性技术讨论。gemini-code-assist[bot]的评论总结了文档变更内容:“更新多模态CUDA图文档,反映视频推理支持不再是实验性的,并且现在支持每个提示中的图像+视频混合输入。相应地移除了示例和限制多模态输入的建议。”Isotr0py直接批准了PR。

实现拆解

  1. 更新文档状态说明:在docs/design/cuda_graphs_multimodal.md中,将“Video inference support (experimental)”标题改为“Video inference support”,移除了“实验性”标记。
  2. 修正功能限制描述:将“Currently, we only support image-only or video-only inputs when enabling CUDA graph, mixed inputs (image + video) are not supported yet”改为“Mixed inputs (image+video) per prompt are also supported now”,明确现在支持混合输入。
  3. 清理配置示例:在文档的配置示例中,移除了所有--limit-mm-per-prompt '{"image": 0}'参数,因为不再需要限制图像模态来支持视频输入。
  4. 无代码或测试变更:此PR仅涉及文档更新,没有修改任何源代码、测试或配置文件。
文件 模块 状态 重要度
docs/design/cuda_graphs_multimodal.md 设计文档 modified 2.23

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

技术风险极低

  • 此PR仅修改文档,不涉及任何代码逻辑变更,因此不存在回归、性能、安全或兼容性风险。
  • 文档更新的准确性依赖于底层代码实现(如_execute_mm_encodergroup_and_batch_mm_kwargs)确实支持混合输入,但这是PR描述中已确认的事实。
  • 唯一潜在风险是文档描述与最新代码实现不同步,但此PR正是为了解决这一问题。

影响范围有限

  • 对用户:澄清了功能支持状态,用户现在可以明确知道图像+视频混合输入在CUDA图模式下是受支持的,无需再通过--limit-mm-per-prompt限制图像模态。这改善了用户体验和配置简洁性。
  • 对系统:无影响,因为未修改任何运行时代码。
  • 对团队:保持了设计文档与代码实现的一致性,有助于新开发者准确理解系统能力。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论