修复后替换别名路径的 LoRA 去重遗漏
值得合并,修复了明确的回归场景。可作为学习 LoRA 模块包装机制的典型示例。
标签列表
聚合结果
修复后替换别名路径的 LoRA 去重遗漏
值得合并,修复了明确的回归场景。可作为学习 LoRA 模块包装机制的典型示例。
修复 LoRA 加载异常处理路径
建议合入,该 PR 修复了 LoRA 加载失败时的异常处理路径,避免内部错误暴露。虽无测试配套,但逻辑简单且改动量小,风险可控。未来可考虑补充测试用例覆盖异常路径。
Rust 前端新增动态 LoRA 管理端点
该 PR 安全设计充分,并发控制合理,值得团队精读。建议后续补充 CI 中端到端测试,并关注路径验证的 TOCTOU 缓解。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-05-26 18:40
修复XPU上fused MoE LoRA kernel崩溃
值得合并,修复清晰且无副作用。建议精读以确保后续平台无关化改造遵循相同模式。
MoE LoRA 单 Triton 核融合与双流并行
该 PR 是一次精心设计的内核融合优化,代码质量较高,测试充分。对于理解 vLLM 中 MoE+LoRA 的 Kernel 层优化思想有较高参考价值。特别值得关注的设计决策包括: - 融合核如何通过 `add_inputs` 参数服务于双流路径(零缓冲区分开基与 LoRA 输出); - `maybe_execute_in_parallel` 工具函数的使用; - 双流事件管理的设计(4 事件避免重用)。 建议关注 rank 128 限制的风险,未来可能需解决。
EP 下 2D LoRA 权重加载跳过非本地 expert 以降低内存
值得阅读以理解 vLLM 的 LoRA+EP 设计。可关注未解决的边界情况(MoE 层无 LoRA 时优化失效)。
修复 V2 Runner 中 LoRA CUDA Graph 捕获遗漏问题
建议精读,特别是理解 CUDA Graph 捕获时 LoRA 内核被跳过的根本原因和修复方案。该 PR 展示了动态图捕获与 Python 层短路之间的微妙交互,对理解 vLLM 的 LoRA 实现有重要参考价值。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-21 09:00
修复 V2 model runner 在 dummy run 时 LoRA 未初始化引起的 Triton 断言错误
此 PR 值得精读,尤其是理解 V2 model runner 中 dummy run 路径与 LoRA 的交互。关注点:1)临时方案的设计权衡;2)未来向 LoRA warmup 迁移的 plan。开发者应跟踪 PR#35536 的进展。