Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 18:58 同步状态：空闲下次计划：2026-05-31 19:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#39626 Fix Responses API streaming for multiple auto tool calls

原始 PR · 作者 noobHappylife · 合并时间 2026-04-14 13:28

缺陷修复重要性 6.00 洞察度 5.00

修复Responses API流式处理中多自动工具调用参数错误合并的问题。

建议工程师精读此PR，关注流式事件处理中的状态管理和错误处理设计，特别是_process_simple_streaming_events函数的变更。对于技术管理者，可作为bugfix的范例，展示如何在重构背景下简化变更和测试驱动修复。

frontendtool-callingbugfix

#39679 [Bugfix] Fix Gemma4 tool parser converting bare `null` to string `"null"`

原始 PR · 作者 KimuGenie · 合并时间 2026-04-14 12:44

缺陷修复重要性 4.00 洞察度 3.00

修复Gemma4工具解析器将裸`null`错误转换为字符串`"null"`的问题。

该PR值得快速审阅，重点关注： 1. `_parse_gemma4_value`函数中空值处理的设计决策（支持多种表示形式）。 2. 测试用例的完整性，确保字符串`"null"`与裸`null`的区分正确。

bugfixtool-callingparser

#39446 [Refactor][Parser] Migrate chat completion auto-tool/reasoning/plain streaming to parse_delta

原始 PR · 作者 sfeng33 · 合并时间 2026-04-14 12:39

重构重要性 5.00 洞察度 6.00

重构Chat完成流生成器，统一使用Parser.parse_delta处理自动工具和推理流。

推荐工程师精读此PR以了解解析器框架在流式处理中的集成方式。特别关注重构策略和未解决的reasoning delta问题，这可能在相关解析器代码中需要后续修复。

refactorparserfrontend

#39683 [Bugfix]: Fix MinimaxM2ToolParser missing tools parameter

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-14 11:16

缺陷修复重要性 4.00 洞察度 3.00

修复MiniMaxM2Parser构造函数缺少tools参数导致的TypeError。

该PR值得快速浏览以了解MiniMaxM2Parser的参数传递修复。重点关注： 1. 构造函数签名变更如何保持向后兼容 2. review中提到的工具对象类型不匹配问题，这是需要后续关注的技术债 3. 与相关工具解析器（MinimaxM2ToolParser）的协作模式

bugfixparsertool-calling

#38810 [LMCache][MP] optimize save when mla enabled

原始 PR · 作者 chunxiaozheng · 合并时间 2026-04-14 08:56

性能优化重要性 6.00 洞察度 6.00

优化LMCache多进程适配器，在MLA启用时仅由TP组首rank执行存储请求，减少冗余通信。

建议工程师精读此PR，关注`ParallelStrategy`的设计如何封装并行参数，以及使用`getattr`处理向后兼容性的模式。对于涉及分布式缓存和MLA优化的开发，有参考价值。

kv-connectorperformancerefactor

#37588 [Model Runner V2] Add full cuda graph support for eagle prefill

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-14 07:01

功能重要性 7.00 洞察度 6.00

为Eagle推测解码预填充阶段添加完整CUDA图支持以提升性能。

建议精读此PR，特别关注speculator.py中的prefill方法和cudagraph管理器的设计，学习如何扩展CUDA图支持到可变长度输入场景，以及性能权衡的决策。

nvidiacudagraphspeculative-decoding

#39423 ParakeetExtractor performance and UX enhancements

原始 PR · 作者 netanel-haber · 合并时间 2026-04-14 05:37

性能优化重要性 6.00 洞察度 6.00

移除 librosa 依赖并集成 CUDA 特征提取器，提升 Parakeet 音频模型性能。

该 PR 值得精读，特别是 `ParakeetExtractor` 类的重构和 CUDA 代码集成，展示了如何优化音频处理流水线并移除不必要依赖。建议关注 `@cache` 和 `torch.compile` 的使用以提升性能，以及配置迁移策略确保向后兼容性。

performancerefactormodel

#39728 [Refactor][Parser] Simplify parse_delta

原始 PR · 作者 sfeng33 · 合并时间 2026-04-14 05:02

重构重要性 4.00 洞察度 5.00

重构 DelegatingParser.parse_delta 方法，提取辅助函数提升代码可维护性。

该 PR 值得精读，特别是对于关注代码可维护性设计和流式解析状态管理的工程师。重构展示了如何将复杂条件逻辑分解为辅助方法，并清晰分离不同阶段处理。建议关注 _in_reasoning_phase 和 _in_tool_call_phase 的设计，以及状态转换（reasoning_ended, tool_call_text_started）的处理方式，这些是流式解析的核心模式。

refactorparser

第 172 / 253 页 · 共 2020 条

上一页 1 … 170 171 172 173 174 … 253 下一页