Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

vlm 相关 PR

2026-04-17

#22662 [VLM] Reduce GPU memory footprint of CUDA IPC MM feature transport

作者 yhyang201 · 合并时间 2026-04-17 10:38

性能优化 重要性 6.89 洞察度 6.00

优化VLM CUDA IPC传输内存占用,避免非源TP rank创建额外GPU上下文。

performance multimodal run-ci vlm

该PR值得精读,重点关注`_reconstruct_from_ipc_extra`中设备索引重定向的设计,这是利用CUDA IPC P2P特性避免额外上下文创建的关键技巧。同时,内存池按worker均分的策略展示了如何平衡总预算与并发性,对设计类似共享资源池有参考价值。