Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#43445 [Spec Decode] Allow causal DFlash

原始 PR · 作者 benchislett · 合并时间 2026-05-29 05:18

功能重要性 6.61 洞察度 4.00

DFlash 支持可配置因果注意力

建议快速合入，改动清晰且风险低。设计上使用 property 而非构造函数注入，值得学习。

featurespeculative-decodingv1

#43891 [Model Refactoring] Remove unncessary torch op registration for DSv4

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-29 05:04

重构重要性 7.73 洞察度 2.00

移除 DSv4 中不必要的 torch op 注册

对于关注 DSv4 模型开发的同学，值得阅读此 PR 以了解如何清理 torch.compile 依赖。对于其他模型开发者，可作为简单的重构样例。

refactormodeldeepseek

#43205 [KV Offload] Add per-request offloading policy via `on_new_request` lifecycle hook

原始 PR · 作者 ronensc · 合并时间 2026-05-29 04:45

功能重要性 8.73 洞察度 7.00

新增 per-request 卸载策略和生命周期钩子

值得精读，特别是设计决策（抽象方法、只跟踪 REQUEST_LEVEL 层、命名选择）可供参考。建议关注 `on_new_request` 和级联逻辑的实现。

kv-connectorv1feature

#43732 [Core] Cleanup KVConnector handling with PP + fix MRV2

原始 PR · 作者 njhill · 合并时间 2026-05-29 04:12

缺陷修复重要性 7.11 洞察度 5.00

清理 KVConnector 处理并修复 PP 下 MRV2 输出

值得精读，特别是 `with_kv_conn_output_only` 静态方法的设计：通过一个工厂方法统一了空输出创建的逻辑，避免了多处重复的 `copy` 和判断。这种模式在需要返回带可选字段的空容器时非常有用，可以推广到项目中其他类似场景。

bugfixrefactorv1

#42083 [Feat] Add support for per GPU worker RDMA NIC selection

原始 PR · 作者 rajkiranjoshi · 合并时间 2026-05-29 03:45

功能重要性 9.06 洞察度 6.00

支持 per-GPU worker RDMA NIC 选择

值得精读，尤其 PCI BDF 规范化和 sysfs 遍历的实现可供其他 RDMA 相关特性参考。设计决策（仅 NVML、去除 prefetch）体现了简化优先的务实思路。

featureperformancev1

#43784 Deprecate `JAISLMHeadModel`

原始 PR · 作者 hmellor · 合并时间 2026-05-29 02:29

其他重要性 8.75 洞察度 3.00

废弃 JAISLMHeadModel 模型，移除支持

该 PR 提供了一个良好的废弃模型清理模板，包括删除源代码、更新注册表、添加废弃记录、更新测试和文档。值得在类似场景下参考。

cleanupdocumentationmodel

#42796 [MM][CG] Avoid over-padding Qwen2.5-VL encoder cudagraph window metadata

原始 PR · 作者 huanghua1994 · 合并时间 2026-05-29 02:22

性能优化重要性 7.86 洞察度 6.00

优化 Qwen2.5-VL encoder CUDA graph 窗口序列上界，B200 性能提升 3x+

该 PR 值得精读，展示了在 CUDA graph replay 中处理变长输入的正确姿势，尤其是 `padding_logics` 设计模式体现了插件化思想。评审过程中对灵活性与显式性之间的权衡也值得关注。

performancev1qwen

#43331 [ROCm] Enable the aiter top-k/top-p sampler by default

原始 PR · 作者 JohnQinAMD · 合并时间 2026-05-29 02:19

功能重要性 4.02 洞察度 5.00

启用 ROCm aiter 采样器并移除硬编码禁用标志

本 PR 变更极小但影响明确，建议 ROCm 用户确认 aiter 版本后合并。值得关注的是 review 中关于日志级别、版本依赖和验证方法的讨论，对后续类似 PR 有参考意义。

rocmperformancev1

第 25 / 269 页 · 共 2148 条

上一页 1 … 23 24 25 26 27 … 269 下一页