#39607 [Doc] Add Gemma 4 to supported models list
作者 z1ying · 合并时间 2026-04-17 13:42
添加Gemma 4模型到支持模型列表文档。
建议快速浏览以确保文档准确性,特别是模态支持注释部分,对使用Gemma 4多模态功能的用户有直接价值;无需深入代码分析。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 z1ying · 合并时间 2026-04-17 13:42
添加Gemma 4模型到支持模型列表文档。
建议快速浏览以确保文档准确性,特别是模态支持注释部分,对使用Gemma 4多模态功能的用户有直接价值;无需深入代码分析。
作者 noooop · 合并时间 2026-04-17 12:17
为IOProcessorRequest添加to_pooling_params方法以修复插件测试失败。
该PR是一个小型但关键的修复,值得快速浏览以理解插件请求的接口一致性。关注点在于`IOProcessorRequest`如何通过`to_pooling_params`方法集成到池化参数转换流程中,这反映了vLLM中请求协议设计的模块化思路。
作者 mgoin · 合并时间 2026-04-17 10:48
延迟导入benchmark子命令和绘图库,减少CLI启动时间约2秒。
该PR值得精读,尤其对于关注Python启动性能优化和模块化设计的工程师。关键设计决策包括:延迟导入策略、健壮的命令行参数检测、以及环境变量替代硬编码配置,这些技巧可广泛应用于其他CLI工具优化。
作者 Alnusjaponica · 合并时间 2026-04-17 08:54
通过ruff格式化修复测试文件,使pre-commit CI通过。
该PR值得快速浏览,以了解如何通过ruff格式化解决CI问题;关注点在于代码风格一致性和CI流水线维护,无复杂设计决策。
作者 TheEpicDolphin · 合并时间 2026-04-17 07:27
优化MLA注意力索引器uniform decode路径,通过Triton kernel减少推测解码开销。
建议精读此PR,特别关注Triton kernel的设计和`_prepare_decode_tensors`中的条件分支,这是性能优化的核心。对于从事注意力后端、推测解码或kernel优化的工程师,可学习如何针对uniform场景进行针对性优化。
作者 bnellnm · 合并时间 2026-04-17 07:26
临时禁用B200 GPU上的fp4 MoE层测试,解决CI因缺少cublasLt.h而失败的问题。
该PR变更简单直接,适合快速浏览以了解CI问题的临时处理方式。值得关注的是团队如何通过设备能力检测精准定位受影响环境,以及条件判断的注释清晰链接到原始Issue,便于后续跟踪。
作者 netanel-haber · 合并时间 2026-04-17 07:22
修复Parakeet音频模型在卷积偏置禁用时,权重加载因偏置张量存在而报错的问题。
**建议快速浏览,关注设计模式**:该PR代码量小,逻辑清晰,适合快速合并。值得关注的是其处理“配置导致参数缺失”与“权重文件包含冗余参数”之间矛盾的优雅方案:通过一个专用的判断方法,将业务逻辑(哪些参数可跳过)与核心流程(权重加载)解耦。这种模式在未来处理类似兼容性问题时可复用。
作者 BadrBasowid · 合并时间 2026-04-17 06:57
新增编译fusion pattern matcher pass的单元测试,验证uuid稳定性和匹配计数。
该PR值得测试工程师和编译模块开发者关注,可学习如何为pattern matcher设计单元测试,但需注意review中提到的全局状态问题,避免在自身测试中引入类似风险。
参与讨论