Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 18:46 同步状态：空闲下次计划：2026-04-21 19:46

PR 列表

已合并 857 · 已分析 857

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38847 [Bugfix]: Fix Gemma4ToolParser.init() missing `tools` parameter

原始 PR · 作者 hospedales · 合并时间 2026-04-03 05:35

缺陷修复重要性 5.00 洞察度 3.00

修复Gemma4工具调用解析器构造函数签名不匹配导致的400错误

该PR变更简单直接，是典型的接口对齐修复。对于大多数工程师，只需了解修复了Gemma4工具调用解析器的构造函数签名不匹配问题。值得关注的是： 1. 这是一个典型的'新代码使用旧接口'问题，提醒在继承现有基类时需要注意接口变更 2. 修复方案采用了与其他工具解析器完全一致的模式，保持了代码一致性 3. 属于v0.19.0版本的重要补丁，需要确保包含在发布中

bugfixtool-callingmodel

#38836 [CI] Fix: pass string cache_dtype in test_register_kv_caches

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-03 03:42

缺陷修复重要性 2.00 洞察度 2.00

修复测试用例中cache_dtype参数类型错误，确保与KV缓存量化接口兼容。

该PR变更简单，无需精读。值得关注的是它反映了#38378引入的接口变更（cache_dtype从torch.dtype对象改为字符串），这对理解KV缓存量化功能的API设计有参考价值。

bugfixtestv1

#38792 [CI] Add flashinfer.py to attention test source deps

原始 PR · 作者 stecasta · 合并时间 2026-04-03 03:24

基础设施重要性 3.00 洞察度 2.00

修复CI依赖配置，确保flashinfer.py变更能触发注意力测试。

对于技术管理者：此PR无需深入审查，可快速合并。对于工程师：除非您负责CI维护或修改flashinfer.py，否则无需精读。值得关注的点是CI依赖管理的重要性——一个遗漏的依赖可能导致回归漏检。

cicleanupv1

#38826 feat(models): implement Google Gemma 4 architecture support (MoE, Multimodal, Reasoning, Tool-Use)

原始 PR · 作者 lucianommartins · 合并时间 2026-04-03 02:13

功能重要性 7.00 洞察度 6.00

实现Google Gemma 4模型家族支持，包括MoE、多模态、推理和工具调用。

建议技术管理者和工程师精读此PR，重点关注以下设计决策：1) 异构头维度（head_dim 与 global_head_dim）下的注意力后端强制选择（Triton），以避免混合后端导致的数值发散；2) Gemma4特定RoPE实现（比例缩放），处理部分旋转维度的零填充；3) 多模态处理器中的错误处理优化和性能批量处理策略，可作为类似模型集成的参考。

featuremodelmulti-modality

#38062 Bump helion dependency from 0.3.2 to 0.3.3

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-03 01:59

基础设施重要性 2.00 洞察度 1.00

将Helion可选依赖从0.3.2升级到0.3.3，同步更新CI配置。

这是一个简单的依赖版本更新PR，无需深入阅读。对于关注AMD平台Helion内核开发的工程师，可以留意新版本可能带来的inductor融合功能改进。对于大多数开发者，只需知道依赖版本已更新即可。

v1cleanup

#38791 [Bugfix] Fix test mocks after SM100 restriction in #38730

原始 PR · 作者 stecasta · 合并时间 2026-04-03 01:12

缺陷修复重要性 3.00 洞察度 2.00

修复因#38730更改API导致的TRT-LLM注意力测试mock失效问题。

该PR变更简单直接，无需精读。值得关注的是其中揭示的CI依赖管理问题（如#38792所提），这对测试稳定性和CI可靠性有借鉴意义。

bugfixtestv1

#38690 [FA4] Update flash-attention to latest upstream FA4

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-03 01:02

基础设施重要性 3.00 洞察度 2.00

更新Flash-Attention 4依赖至最新上游版本，修复已知问题。

该PR变更简单，无需精读，但值得关注其作为依赖更新的一部分，以确保CI测试通过且无回归。对于维护者，建议监控后续相关PR（如#36763的修复验证）以确认更新效果。

v1cleanup

#38292 [CI][ROCm] Add gpt-oss w4a8 in CI

原始 PR · 作者 BowenBao · 合并时间 2026-04-03 00:06

基础设施重要性 3.00 洞察度 2.00

在ROCm CI中新增gpt-oss模型的w4a8量化配置测试。

该PR本身非常简单，不值得精读，但值得关注其作为GPT-Oss模型量化支持CI测试体系构建的起点。建议关注后续相关的PR（如#37128中提到的CK后端路由、Triton后端路由启用等），这些将涉及核心量化逻辑的修改。

rocmgpt-ossci

第 61 / 108 页 · 共 857 条

上一页 1 … 59 60 61 62 63 … 108 下一页

支持 Prhub ♥

vllm-project/vllm

PR 列表

#38847 [Bugfix]: Fix Gemma4ToolParser.init() missing `tools` parameter

#38836 [CI] Fix: pass string cache_dtype in test_register_kv_caches

#38792 [CI] Add flashinfer.py to attention test source deps

#38826 feat(models): implement Google Gemma 4 architecture support (MoE, Multimodal, Reasoning, Tool-Use)

#38062 Bump helion dependency from 0.3.2 to 0.3.3

#38791 [Bugfix] Fix test mocks after SM100 restriction in #38730

#38690 [FA4] Update flash-attention to latest upstream FA4

#38292 [CI][ROCm] Add gpt-oss w4a8 in CI

参与讨论

vllm-project/vllm

PR 列表

#38847 [Bugfix]: Fix Gemma4ToolParser.__init__() missing `tools` parameter

#38836 [CI] Fix: pass string cache_dtype in test_register_kv_caches

#38792 [CI] Add flashinfer.py to attention test source deps

#38826 feat(models): implement Google Gemma 4 architecture support (MoE, Multimodal, Reasoning, Tool-Use)

#38062 Bump helion dependency from 0.3.2 to 0.3.3

#38791 [Bugfix] Fix test mocks after SM100 restriction in #38730

#38690 [FA4] Update flash-attention to latest upstream FA4

#38292 [CI][ROCm] Add gpt-oss w4a8 in CI

参与讨论

#38847 [Bugfix]: Fix Gemma4ToolParser.init() missing `tools` parameter