Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#40982 [DSV4] Support `max` reasoning effort

原始 PR · 作者 BugenZhao · 合并时间 2026-04-29 19:03

功能重要性 7.14 洞察度 6.00

支持DeepSeek V4的max reasoning effort及模型特定值传递

值得精读，展示了模型特定参数传递与OpenAI兼容性之间的设计权衡，以及在多模型系统中如何优雅地扩展枚举值。建议关注Harmony parser对none的处理，确保后续客户端升级无虞。

featuredeepseekfrontend

#41200 [KV Offload] Tighten `keys` type from `Iterable` to `Sequence` in `OffloadingManager`

原始 PR · 作者 ronensc · 合并时间 2026-04-29 18:50

重构重要性 6.24 洞察度 4.00

收紧 OffloadingManager 参数类型为 Sequence

值得快速合并。该 PR 是对之前 review 建议的干净跟进，没有引入任何风险，且提高了代码健壮性。审阅者可以重点关注 `prepare_store` 中移除 `list()` 后的逻辑是否正确——检查后确认无误。

refactorkv-connectorcleanup

#40786 Fix PP in Gemma4

原始 PR · 作者 SKRohit · 合并时间 2026-04-29 18:17

缺陷修复重要性 6.58 洞察度 5.00

修复 Gemma4 PP 中 residual 和 per_layer_inputs 同步

建议阅读此 PR 以了解 Gemma4 在 PP 下的张量同步设计，特别是 IntermediateTensors 如何按需传递。对于有类似 PP + PLE 实现的模型开发者，这是一个值得关注的决策案例——如何平衡泛化与模型特定优化。

bugfixmodelpipeline-parallelism

#41185 [Bugfix] BailingMoeV2.5: rotate full qk_rope_head_dim in MLA RoPE

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-29 18:08

缺陷修复重要性 6.26 洞察度 5.00

修复 BailingMoeV2.5 MLA RoPE 旋转维度不足

建议精读该 PR 以了解 MLA 注意力中 RoPE 参数的处理方式。虽然修改量小，但涉及对 `partial_rotary_factor` 与 `rope_dim` 优先级关系的修正，设计决策（filter vs. override）值得关注。后续可考虑补充单元测试验证 RoPE 维度计算正确性。

bugfixmodelattention

#40653 build: embed image provenance metadata in vLLM containers

原始 PR · 作者 alec-flowers · 合并时间 2026-04-29 18:07

基础设施重要性 6.95 洞察度 5.00

在容器镜像中嵌入构建来源元数据

该 PR 值得精读，特别是 `docker-build-metadata-args.sh` 的 fallback 设计和 Buildkite 流水线的集中化改造。对于维护类似 CI/CD 流水线的团队，这是一个很好的参考模式，展示了如何在构建过程中注入可追溯的元数据。

ci/buildrefactor

#41198 [Bugfix] DSV32/V4 add missing type conversion for non-streaming tool calls

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-29 17:55

缺陷修复重要性 5.39 洞察度 4.00

修复 DSV32/V4 非流式 tool call 类型转换缺失

值得精读参考：该 PR 展示了如何定位并修复一个因缺少类型转换导致的非流式 tool call bug，代码改动清晰，测试与源码联动紧密。开发者在实现类似 parser 时可参考其对 schema 类型转换的处理方式。

bugfixtool-callingdeepseek

#41110 [Frontend]Responses API supports Tool/Function calling with streaming with named tool/function

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-29 17:11

功能重要性 7.42 洞察度 6.00

Responses API 流式命名函数调用支持

此 PR 展示了如何为 Responses API 补齐流式命名工具调用的能力，并修复了因递增时机错误导致的计数问题。设计上值得关注的是：将函数名提取逻辑抽离为 `_get_function_name`，以及将流式 tool call 构建委托给专门的 `extract_named_tool_call_streaming` 函数，实现了关注点分离。建议流式 tool call 相关功能开发者精读。

frontendtool-callingresponses-api

#41203 [CI][CPU] Split CPU-Distributed Tests into per-scenario labels

原始 PR · 作者 haosdent · 合并时间 2026-04-29 16:28

基础设施重要性 4.62 洞察度 3.00

拆分 CPU 分布式测试为独立 CI 步骤

建议快速合并。该 PR 解决了明确的 CI 超时问题，改动小且经过 reviewer 批准。无需精读。

cpuci/buildcleanup

第 119 / 253 页 · 共 2018 条

上一页 1 … 117 118 119 120 121 … 253 下一页