Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#42236 [DSv4] Improved dequant gather K cache kernel

原始 PR · 作者 gau-nernst · 合并时间 2026-05-11 22:41

性能优化重要性 7.49 洞察度 7.00

CuteDSL 重写 DSv4 K 缓存解量化收集内核，加速约 2 倍

值得精读。该 PR 清晰展示了如何用 CuteDSL 实现复杂内存搬运内核，包括 cuTe 布局、`cp.async` 多级流水线、PTX 内联汇编等技巧。派发器与回退设计也值得借鉴。对于使用 DSv4 模型的团队，此优化直接提升推理性能。

performancedeepseekkernel

#40392 [Performance][DSR1]: Fused RoPE+KVCache+q_concat for MLA

原始 PR · 作者 Rohan138 · 合并时间 2026-05-11 22:10

性能优化重要性 9.18 洞察度 6.00

融合 MLA 的 RoPE 与 KV 缓存更新以减少 kernel launch

建议在更多后端（FlashInfer、原生 PyTorch）上运行性能基准测试，并将该融合加入 CI E2E 测试。对于关注 MLA 推理优化或编译 pass 编写的开发者，此 PR 的模式匹配和 defunctionalization 处理具有学习价值。

performancekernelrocm

#41928 [kv_offload] Set offloading connector to prefer HND layout

原始 PR · 作者 hickeyma · 合并时间 2026-05-11 20:05

重构重要性 4.97 洞察度 4.00

KV Offload 连接器声明 HND 布局

该 PR 变更简单明确，值得关注的是其作为 #33689 系列拆分的实践。对于理解 vLLM KV 缓存布局体系有参考价值。

v1kv-connectorrefactor

#42244 Avoid silent weights corruption when loading Nemotron Nano VL with reusable-buffer loaders like runai distributed streaming

原始 PR · 作者 noa-neria · 合并时间 2026-05-11 20:03

缺陷修复重要性 7.47 洞察度 6.00

修复 Nemotron Nano VL 权重加载损坏

建议精读该 PR，特别是生成器耗尽和多模态权重克隆的设计，可作为多模态模型权重加载的参考模式。

bugfixmulti-modalitymodel

#42272 [Frontend]Responses API supports chat_template_kwargs

原始 PR · 作者 chaunceyjiang · 合并时间 2026-05-11 19:59

功能重要性 5.99 洞察度 6.00

Responses API 支持 chat_template_kwargs 传递

该 PR 值得精读，展示了如何为 Responses API 增加参数透传能力的简洁实现，尤其在默认值与请求值合并的设计上值得借鉴。

frontendfeatureresponses-api

#42246 Fix EXAONE-4.5 to align with Transformers update

原始 PR · 作者 lkm2835 · 合并时间 2026-05-11 18:25

缺陷修复重要性 7.10 洞察度 5.00

修复 EXAONE 4.5 与 Transformers 更新对齐

值得精读，特别是 EXAONE 4.5 模型维护者。建议在后续 PR 中修复 review 指出的两个问题：MTP 层前缀偏移和 PP 分片。当前版本对于非 PP 单卡用户是安全的，PP 用户应暂缓使用 MTP 模式。

bugfixmodelv1

#42293 [CI] Make Python-only Installation optional

原始 PR · 作者 haosdent · 合并时间 2026-05-11 17:47

基础设施重要性 3.27 洞察度 3.00

Python-only 安装测试改为可选步骤

该 PR 改动极小且合理，建议合并。对于超时问题的建议，可考虑在后续 PR 中评估是否需要增加时间。

ci/buildcleanupinfra

#40364 [KV Connector][NIXL][Bugfix] Fix NIXL handshake failures not honoring kv_load_failure_policy

原始 PR · 作者 NickLucche · 合并时间 2026-05-11 17:37

缺陷修复重要性 6.93 洞察度 5.00

修复 NIXL 握手失败回退策略不生效

建议阅读此 PR，重点关注其线程安全失败处理模式：使用 `queue.Queue` 替代普通 set 进行跨线程通信，以及将多个失败路径收敛到 `_handle_failed_transfer` 的设计。同时注意 `_read_blocks_for_req` 中遗留的竞态条件，可作为后续改进方向。

bugfixv1kv-connector

第 95 / 269 页 · 共 2150 条

上一页 1 … 93 94 95 96 97 … 269 下一页