#38061 [MM][Perf][CG] Support ViT full CUDA graph for Qwen3-VL video inference
作者 shen-shanshan · 合并时间 2026-04-14 16:49
扩展ViT全CUDA图支持到Qwen3-VL视频推理,提升多模态编码性能。
建议技术管理者和工程师精读此PR,以理解CUDA图在多模态编码中的扩展设计。重点关注`get_input_modality`方法实现、`max_frames_per_batch`参数处理,以及review中讨论的权衡决策(如缓存移除和命名更改),这些对类似性能优化和协议设计具有借鉴意义。同时,关注后续PR中混合输入支持的演进。