#22662 [VLM] Reduce GPU memory footprint of CUDA IPC MM feature transport
作者 yhyang201 · 合并时间 2026-04-17 10:38
优化VLM CUDA IPC传输内存占用,避免非源TP rank创建额外GPU上下文。
该PR值得精读,重点关注`_reconstruct_from_ipc_extra`中设备索引重定向的设计,这是利用CUDA IPC P2P特性避免额外上下文创建的关键技巧。同时,内存池按worker均分的策略展示了如何平衡总预算与并发性,对设计类似共享资源池有参考价值。