Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

model 相关 PR

2026-04-18

#40160 [Bugfix] Fix k_proj's bias for GLM-ASR

作者 rishaps · 合并时间 2026-04-18 13:34

缺陷修复 重要性 5.61 洞察度 4.00

修复 GLM-ASR 模型在 CPU 后端因 k_proj 偏置未初始化导致的数值溢出问题。

bugfix v1 model multi-modality

该 PR 是针对性强的 bugfix,代码变更简洁,适合快速浏览以了解 GLM-ASR 模型加载的特殊处理。值得关注的设计决策是如何通过辅助函数 `_create_fake_bias_for_k_proj` 解耦权重修补逻辑,保持 load_weights 方法清晰。建议结合 PR body 中的测试脚本理解问题复现和验证过程。

#39291 feat: Add LoRA support for Gemma4ForConditionalGeneration

作者 allgather · 合并时间 2026-04-18 00:39

功能 重要性 5.98 洞察度 4.00

为 Gemma4 多模态模型添加 LoRA 支持,通过继承 SupportsLoRA 接口并调整模块映射。

v1 feature model multi-modality

建议技术管理者和工程师关注此 PR 以了解多模态模型 LoRA 集成的模式,特别是 `get_mm_mapping` 方法的动态调整。对于实现细节,`gemma4_mm.py` 文件是核心,值得精读以理解接口继承和模块映射的权衡。

2026-04-17

#39234 [Models][Gemma4] Prevent GPU/CPU sync in `embed_input_ids`

作者 lgeiger · 合并时间 2026-04-17 20:37

缺陷修复 重要性 5.50 洞察度 6.00

修复 Gemma4 多模态模型在 embed_input_ids 中的 GPU/CPU 同步阻塞问题。

bugfix performance model v1 multi-modality

该 PR 虽然改动小,但揭示了 vLLM 在多模态模型推理中优化设备同步的典型模式。值得关注的点包括: - 理解 `non_blocking=True` 在避免同步阻塞时的应用场景。 - 学习如何平衡“张量留在 CPU”的设计意图与避免冗余传输的性能考量。 - 结合 PR #34246 查看完整演进脉络。

缺陷修复 重要性 6.67 洞察度 4.00

修复Parakeet音频模型在卷积偏置禁用时,权重加载因偏置张量存在而报错的问题。

bugfix v1 model multi-modality

**建议快速浏览,关注设计模式**:该PR代码量小,逻辑清晰,适合快速合并。值得关注的是其处理“配置导致参数缺失”与“权重文件包含冗余参数”之间矛盾的优雅方案:通过一个专用的判断方法,将业务逻辑(哪些参数可跳过)与核心流程(权重加载)解耦。这种模式在未来处理类似兼容性问题时可复用。

2026-04-16

#39869 [Model] Use mm_features for Keye-VL and Keye-1.5-VL M-RoPE

作者 lalit10 · 合并时间 2026-04-16 17:16

重构 重要性 8.93 洞察度 6.00

为 Keye-VL 和 Keye-1.5-VL 模型重构 M-RoPE 位置计算,切换到 mm_features 驱动。

model v1 refactor multi-modality

此 PR 值得精读,特别是 `iter_mm_grid_thw` 的设计展示了如何从传统 token 处理过渡到基于元数据的多模态接口。关注视频拆分逻辑和测试用例的构造,以理解 M-RoPE 计算的关键细节。

#39575 Add Jina Embeddings v5 model support (fixes #38633)

作者 Roy214 · 合并时间 2026-04-16 14:37

功能 重要性 8.58 洞察度 5.00

新增Jina Embeddings v5模型支持,基于Qwen3-0.6B-Base并合并LoRA适配器。

feature model v1 pooling

该PR值得精读,特别是`JinaEmbeddingsV5Model`类中LoRA适配器加载和合并的实现,展示了如何在模型加载时处理适配器权重而避免运行时依赖。关注`load_weights`方法的设计决策和权重匹配逻辑。

缺陷修复 重要性 4.99 洞察度 3.00

为Step-3.5-Flash模型添加num_attention_groups配置支持,修复KV头数解析。

bugfix v1 model

该PR值得快速浏览,重点关注模型架构配置转换器中如何扩展属性列表以支持新模型字段,这是vLLM适配新模型时的常见模式。对于需要支持类似配置的开发者,可参考此实现方式。