Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

lora 相关 PR

2026-04-13

#35721 [LoRA] Support dual CUDA streams-Linear Layer

作者 jeejeelee · 合并时间 2026-04-13 10:57

功能 重要性 6.00 洞察度 7.00

支持双CUDA流以并行执行LoRA线性层计算,提升推理性能。

v1 lora performance core nvidia

建议技术管理者和工程师精读vllm/lora/layers/base_linear.py中的异步实现,关注流管理和PDL启用条件;设计决策值得学习,尤其是双流并行化模式。

2026-04-11
缺陷修复 重要性 6.00 洞察度 5.00

修复Gemma4ForCausalLM加载LoRA适配器的命名映射问题,确保兼容性。

bugfix model v1 lora

对于涉及Gemma4模型或LoRA加载机制的工程师,此PR值得精读以了解权重映射设计。重点关注hf_to_vllm_mapper的实现,以及如何通过WeightsMapper处理不同模型命名约定。