Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 00:21 同步状态：空闲下次计划：2026-05-31 01:21

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-28

#41049 [Core] Fix redundant None append in StepPool.forward for chunked prefill

原始 PR · 作者 anthonsu · 合并时间 2026-04-28 14:42

缺陷修复重要性 5.41 洞察度 3.00

修复 StepPool 分块预填充时重复追加 None

值得精读以理解 StepPool 在 chunked prefill 下的设计。建议后续补充 StepPool 的单元测试覆盖分块预填充场景。

bugfixrefactorcleanup

#40859 [Bugfix ] fix bailing_moe_linear

原始 PR · 作者 ghphotoframe · 合并时间 2026-04-28 13:39

缺陷修复重要性 7.10 洞察度 6.00

修复 BailingMoE 解码索引错误及重构可插拔层

值得精读。解码索引修复是关键 Bug 修复，PluggableLayer 设计模式值得学习。建议添加针对混合批次的回归测试。

bugfixrefactorperformance

#41029 [Model] update for mimo v25

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-28 12:52

重构重要性 6.60 洞察度 5.00

重命名 MiMoV2 架构符号从 Pro 变体

该 PR 改动小但破坏性较强，建议精读以理解重命名对模型加载流程的影响。值得关注的设计决策是：维护者选择了向前不兼容的简化，而非保留别名。如果团队管理大量 MiMo 模型，应提前通知用户迁移。

modelrefactordocumentation

#41088 [Bugfix] Fix broken example opeanai client

原始 PR · 作者 Isotr0py · 合并时间 2026-04-28 12:43

缺陷修复重要性 4.99 洞察度 2.00

修复三个 example 脚本因缺失 utils 导入而崩溃

该 PR 是一个简单的示例修复，不值得投入精力精读。不过，开发者可以关注其修复模式：在 example 中避免依赖本地模块，保持自包含性。此外，对于 Gemini 建议的健壮性问题，可以稍后自行添加空列表检查。

tool-callingdocumentationbugfix

#39930 [Attention][Spec Decode] Allow independent drafter attention backend selection

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-28 10:38

功能重要性 7.34 洞察度 6.00

允许推测解码 drafter 独立选择注意力后端

本 PR 值得精读，尤其是 `_create_draft_vllm_config` 的设计模式（基类构建累积替换、子类追加覆盖）以及“不继承 target backend”的决策原则。用户升级后建议测试自己的推测解码配置是否仍然正常工作。

speculative-decodingattentionfeature

#40700 [Frontend]Responses API supports Tool/Function calling with streaming with required

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-28 10:36

功能重要性 9.00 洞察度 6.00

Responses API 新增流式工具调用支持 required tool_choice

此 PR 值得精读，尤其是 `vllm/tool_parsers/streaming.py` 的状态机设计和 `vllm/entrypoints/openai/responses/streaming_events.py` 的事件发射模式。设计决策包括将公共流式解析逻辑抽取为独立函数以促进复用，以及使用 `SimpleStreamingState` 显式管理流式状态而不是依赖临时变量。需要注意的是，review 中提出的 `history_tool_call_cnt` 未递增和硬编码路径等问题尚未解决，在合并后可能需要后续 PR 跟进。建议阅读时同时关注这些评论，以全面理解潜在问题。

frontendtool-callingresponses-api

#40855 [Bugfix] Remove tokenizer encode/decode calls from Olmo3 reasoning parser

原始 PR · 作者 yzong-rh · 合并时间 2026-04-28 10:36

缺陷修复重要性 5.80 洞察度 5.00

移除 Olmo3 推理解析器中的 tokenizer decode 调用

建议合并。修复明确、测试覆盖完整，且与已合入的 PR #40059 形成一致方案。值得关注的设计决策是：通过预计算 token ID 来避免并发 tokenizer 访问，可作为类似并发问题的解决模式。

bugfixrefactormodel

#40743 [Test] Fix test_dynamic_shapes_compilation for torch 2.12

原始 PR · 作者 angelayi · 合并时间 2026-04-28 08:51

缺陷修复重要性 5.01 洞察度 3.00

修复动态形状编译测试在 torch 2.12 中的脆弱性

该 PR 适合快速合入，解决 torch 2.12 升级后的测试回归。变更简单，review 已通过。值得关注的是「用更可靠的数值比较替代字符串断言」的测试设计思路，适用于其他脆弱测试场景。

bugfixtestcompilation

第 124 / 253 页 · 共 2017 条

上一页 1 … 122 123 124 125 126 … 253 下一页