#35721 [LoRA] Support dual CUDA streams-Linear Layer
作者 jeejeelee · 合并时间 2026-04-13 10:57
功能
重要性 6.00
洞察度 7.00
支持双CUDA流以并行执行LoRA线性层计算,提升推理性能。
v1
lora
performance
core
nvidia
建议技术管理者和工程师精读vllm/lora/layers/base_linear.py中的异步实现,关注流管理和PDL启用条件;设计决策值得学习,尤其是双流并行化模式。