Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

lora 相关 PR

2026-06-04
2026-06-03

#44425 [CI/Build] Fix LoRA testing

原始 PR · 作者 jeejeelee · 合并时间 2026-06-03 23:58

缺陷修复 重要性 6.15 洞察度 3.00

修复 LoRA 加载异常处理路径

建议合入,该 PR 修复了 LoRA 加载失败时的异常处理路径,避免内部错误暴露。虽无测试配套,但逻辑简单且改动量小,风险可控。未来可考虑补充测试用例覆盖异常路径。

#43778 [Rust Frontend] Add dynamic LoRA endpoints

原始 PR · 作者 Xunzhuo · 合并时间 2026-06-03 15:55

功能 重要性 9.09 洞察度 5.50

Rust 前端新增动态 LoRA 管理端点

该 PR 安全设计充分,并发控制合理,值得团队精读。建议后续补充 CI 中端到端测试,并关注路径验证的 TOCTOU 缓解。

2026-05-26
功能 重要性 9.18 洞察度 6.00

MoE LoRA 单 Triton 核融合与双流并行

该 PR 是一次精心设计的内核融合优化,代码质量较高,测试充分。对于理解 vLLM 中 MoE+LoRA 的 Kernel 层优化思想有较高参考价值。特别值得关注的设计决策包括: - 融合核如何通过 `add_inputs` 参数服务于双流路径(零缓冲区分开基与 LoRA 输出); - `maybe_execute_in_parallel` 工具函数的使用; - 双流事件管理的设计(4 事件避免重用)。 建议关注 rank 128 限制的风险,未来可能需解决。

2026-05-22
性能优化 重要性 8.32 洞察度 6.00

EP 下 2D LoRA 权重加载跳过非本地 expert 以降低内存

值得阅读以理解 vLLM 的 LoRA+EP 设计。可关注未解决的边界情况(MoE 层无 LoRA 时优化失效)。

缺陷修复 重要性 6.65 洞察度 6.00

修复 V2 Runner 中 LoRA CUDA Graph 捕获遗漏问题

建议精读,特别是理解 CUDA Graph 捕获时 LoRA 内核被跳过的根本原因和修复方案。该 PR 展示了动态图捕获与 Python 层短路之间的微妙交互,对理解 vLLM 的 LoRA 实现有重要参考价值。

2026-05-21
缺陷修复 重要性 6.58 洞察度 5.00

修复 V2 model runner 在 dummy run 时 LoRA 未初始化引起的 Triton 断言错误

此 PR 值得精读,尤其是理解 V2 model runner 中 dummy run 路径与 LoRA 的交互。关注点:1)临时方案的设计权衡;2)未来向 LoRA warmup 迁移的 plan。开发者应跟踪 PR#35536 的进展。