#42796 [MM][CG] Avoid over-padding Qwen2.5-VL encoder cudagraph window metadata
原始 PR · 作者 huanghua1994 · 合并时间 2026-05-29 02:22
优化 Qwen2.5-VL encoder CUDA graph 窗口序列上界,B200 性能提升 3x+
该 PR 值得精读,展示了在 CUDA graph replay 中处理变长输入的正确姿势,尤其是 `padding_logics` 设计模式体现了插件化思想。评审过程中对灵活性与显式性之间的权衡也值得关注。