Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#44165 [Core][Refactor]: thread `scheduler_block_size` into KVCacheManager and KVCacheCoordinator

原始 PR · 作者 ivanium · 合并时间 2026-06-02 16:14

重构重要性 6.97 洞察度 5.00

将调度块大小显式注入 KV 缓存管理层

建议深入阅读此 PR，了解 vLLM KV 缓存管理层的分层架构（`KVCacheManager` → `KVCacheCoordinator` → `SingleTypeKVCacheManager`）和如何通过逐步显式化设计为大型重构做准备。值得关注的设计决策：使用断言确保不变性，将重复计算集中化。

refactorv1kv-connector

#43883 [Rust Frontend] add --enable-request-id-headers flag support.

原始 PR · 作者 cinnamonica02 · 合并时间 2026-06-02 16:08

功能重要性 8.04 洞察度 5.00

Rust 前端新增 --enable-request-id-headers 参数支持

值得精读。展示了 Rust 前端功能补齐的典型流程，特别是 CLI 参数定义、中间件集成、条件路由层注册。Review 中关于 negative form 的设计讨论说明了对 clap 和参数传递路径的深入理解，对后续 Rust 前端开发有参考价值。

featurefrontend

#44177 [kv_offload] Add `@override` decorators to subclass method implementations

原始 PR · 作者 ronensc · 合并时间 2026-06-02 16:07

重构重要性 5.67 洞察度 3.00

为 KV offload 子类方法添加 @override 装饰器

值得阅读以了解 kv_offload 子系统的基类层次和接口设计。该 PR 也展示了如何低成本地将静态检查实践引入大型项目，推荐作为团队标准。

refactorv1cleanup

#43534 [CPU][Perf] Enable fused kernels for GDN's gated delta rules

原始 PR · 作者 fadara01 · 合并时间 2026-06-02 16:00

性能优化重要性 8.59 洞察度 6.00

CPU GDN 融合内核性能提升 50%

值得精读，特别关注其 ISA 无关的 BLAS 回退架构和编译时分支策略，该模式可推广至其他需要跨平台性能优化的算子。建议阅读文件：`csrc/cpu/sgl-kernels/blas_gemm.h` 和 `gemm.h` 中的 `brgemm_supported` 设计。

performancecpukernel

#44220 [Perf] use triton moe backend on hopper by default

原始 PR · 作者 ZJY0516 · 合并时间 2026-06-02 15:52

性能优化重要性 5.91 洞察度 5.00

Hopper 上默认使用 Triton MoE 后端

建议合并。该 PR 基于实际基准测试数据，将 Hopper 上 MoE 后端的默认选择从 FlashInfer 切换为 Triton，性能提升明确，风险低。值得关注的是 Hopper 特定优化和基准测试方法，可推广到类似决策中。

performancekernelmodel

#44267 [Refactor] Unify reasoning + tool-call parsing behind Parser.parse()

原始 PR · 作者 sfeng33 · 合并时间 2026-06-02 15:11

重构重要性 8.36 洞察度 6.00

统一推理与工具调用解析到 Parser.parse()

值得精读，因为统一解析入口是前端架构重构的关键步骤，为后续支持更多解析组合打下基础。需关注作者关于“匹配 streaming”的设计决策及其潜在的兼容性影响。

refactorfrontendtool-calling

#43991 [Model Runner V2] Use actual batch max_seq_len for attn metadata

原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 14:07

缺陷修复重要性 6.25 洞察度 5.00

修复 V2 模型运行器中 attn 元数据 max_seq_len 传递错误

值得精读，尤其是了解如何将 `DefaultModelState` 中的优化模式推广到其他 ModelState 实现，以及 speculative decoding 中 draft max_seq_len 的动态管理方式。设计决策清晰，代码差异小但影响正确性。

bugfixv1attention

#43990 [Model Runner V2] Support zeroing freshly allocated KV blocks for hybrid + fp8 KVCache

原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 13:56

缺陷修复重要性 7.45 洞察度 6.00

修复 V2 模型运行器未清零混合+fp8 KV缓存新块的 bug