Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

multi-modality 相关 PR

2026-04-18

#39079 [Refactor] Drop direct dependency on librosa

作者 NickCao · 合并时间 2026-04-18 14:55

重构 重要性 6.19 洞察度 4.00

移除 librosa 依赖,替换为 torchaudio 及内部音频处理函数。

refactor multi-modality documentation core

建议快速浏览此 PR 以了解依赖清理模式,重点关注 `vllm/transformers_utils/processors/cohere_asr.py` 中滤波器组替换的数值验证方法。对于音频处理模块的开发者,此变更展示了如何将外部依赖迁移到内部或标准库工具。

#40160 [Bugfix] Fix k_proj's bias for GLM-ASR

作者 rishaps · 合并时间 2026-04-18 13:34

缺陷修复 重要性 5.61 洞察度 4.00

修复 GLM-ASR 模型在 CPU 后端因 k_proj 偏置未初始化导致的数值溢出问题。

bugfix v1 model multi-modality

该 PR 是针对性强的 bugfix,代码变更简洁,适合快速浏览以了解 GLM-ASR 模型加载的特殊处理。值得关注的设计决策是如何通过辅助函数 `_create_fake_bias_for_k_proj` 解耦权重修补逻辑,保持 load_weights 方法清晰。建议结合 PR body 中的测试脚本理解问题复现和验证过程。

#38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint

作者 nithinvc · 合并时间 2026-04-18 11:31

功能 重要性 8.56 洞察度 6.00

为解耦推理端点添加多模态支持,实现渲染到生成的零客户端转换。

frontend feature v1 multi-modality kv-connector

建议开发者和架构师精读 `vllm/entrypoints/serve/disagg/mm_serde.py` 的序列化实现,关注整数张量处理和Msgpack配置,以及 `tests/entrypoints/serve/disagg/test_serving_multimodal_tokens.py` 的端到端测试设计,以理解多模态数据流的集成方式。

#40143 [Core] Reduce mm scheduler, get_num_embed overhead

作者 milesial · 合并时间 2026-04-18 11:25

性能优化 重要性 6.04 洞察度 5.00

通过将 embeds_cumsum 缓存从 torch.Tensor 改为 Python list,减少多模态调度器开销。

performance multi-modality core v1

该 PR 值得精读,特别是关注如何通过缓存类型优化来减少 Python 与 torch 之间的转换开销,以及如何处理边界条件以确保健壮性。设计决策体现了性能与代码简洁性的权衡。

#39291 feat: Add LoRA support for Gemma4ForConditionalGeneration

作者 allgather · 合并时间 2026-04-18 00:39

功能 重要性 5.98 洞察度 4.00

为 Gemma4 多模态模型添加 LoRA 支持,通过继承 SupportsLoRA 接口并调整模块映射。

v1 feature model multi-modality

建议技术管理者和工程师关注此 PR 以了解多模态模型 LoRA 集成的模式,特别是 `get_mm_mapping` 方法的动态调整。对于实现细节,`gemma4_mm.py` 文件是核心,值得精读以理解接口继承和模块映射的权衡。

2026-04-17

#39234 [Models][Gemma4] Prevent GPU/CPU sync in `embed_input_ids`

作者 lgeiger · 合并时间 2026-04-17 20:37

缺陷修复 重要性 5.50 洞察度 6.00

修复 Gemma4 多模态模型在 embed_input_ids 中的 GPU/CPU 同步阻塞问题。

bugfix performance model v1 multi-modality

该 PR 虽然改动小,但揭示了 vLLM 在多模态模型推理中优化设备同步的典型模式。值得关注的点包括: - 理解 `non_blocking=True` 在避免同步阻塞时的应用场景。 - 学习如何平衡“张量留在 CPU”的设计意图与避免冗余传输的性能考量。 - 结合 PR #34246 查看完整演进脉络。

缺陷修复 重要性 6.67 洞察度 4.00

修复Parakeet音频模型在卷积偏置禁用时,权重加载因偏置张量存在而报错的问题。

bugfix v1 model multi-modality

**建议快速浏览,关注设计模式**:该PR代码量小,逻辑清晰,适合快速合并。值得关注的是其处理“配置导致参数缺失”与“权重文件包含冗余参数”之间矛盾的优雅方案:通过一个专用的判断方法,将业务逻辑(哪些参数可跳过)与核心流程(权重加载)解耦。这种模式在未来处理类似兼容性问题时可复用。

#40052 [Bugfix] Fix audioflamingo test

作者 ywang96 · 合并时间 2026-04-17 02:53

缺陷修复 重要性 5.74 洞察度 4.00

删除AudioFlamingo3音频特征管道测试,避免与生成测试重复。

bugfix test multi-modality v1

该PR变更简单,无需精读。值得关注的点是测试组织原则:区分“处理器测试”(侧重数据加载和预处理)与“生成测试”(侧重模型执行和特征提取),这有助于维护清晰的测试边界。