Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#43746 [Model Refactoring] Remove torch compile dependency in DSv4

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-28 22:26

重构重要性 8.27 洞察度 6.00

移除 DS V4 对 torch.compile 的依赖，改用可中断 CUDA 图

值得精读。本 PR 展示了如何通过手动融合 kernel 和利用 breakable CUDA graph 替换 torch.compile，是 vLLM 编译栈演进的重要一步。特别关注 `fused_mtp_input_rmsnorm.py` 中的 kernel 设计以及 `config.py` 中的自动启用策略。

refactorv1deepseek

#39983 Add token-offset based selective offload in OffloadConnector

原始 PR · 作者 ruocco · 合并时间 2026-05-28 22:11

功能重要性 6.79 洞察度 4.00

OffloadConnector 新增 max_offload_tokens 参数

该 PR 设计清晰，参数校验严格，测试覆盖全面。建议合并，并鼓励用户按需使用该参数优化卸载量。合并前注意处理合并冲突（PR 历史上曾出现 merge conflict，需要 rebase）。

featurev1kv-connector

#43667 [Perf][KDA] Fuse gate softplus, chunk-local cumsum, and RCP_LN2 scaling

原始 PR · 作者 zexplorerhj · 合并时间 2026-05-28 21:47

性能优化重要性 7.56 洞察度 5.00

融合KDA门控、cumsum和RCP_LN2缩放为单Triton内核

该PR展示了如何通过融合连续小内核来优化注意力算子，设计决策（保留FLA风格的exp2约定、复用chunk_indices）值得借鉴。对于关注KDA或一般注意力性能的工程师，推荐精读`kda_gate_cumsum_fwd_kernel`的实现和模型层的集成方式。

performancekernelattention

#43014 [Perf] Optimize moe permute by pre-allocate buffer, 9~14% kernel performance improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-05-28 21:18

性能优化重要性 8.95 洞察度 6.00

通过预分配缓冲区优化 MoE permute，小 batch 提升 9-14%

建议值得精读。该 PR 展示了 vLLM 中一个典型的中等复杂度性能优化模式：通过预分配缓冲区减少分配开销。设计上采用了数据类 + 可选参数的渐进式修改，确保向后兼容。C++ 与 Python 协作的缓冲区管理、懒初始化、以及审核发现的 `reshape` vs `view` 问题，都具有学习价值。此外，测试中直接断言数据指针相同来验证复用，是一种轻量可靠的验证方式。

performancekernelnvidia

#42965 [BUGFIX] Multimodal benchmark with MistralTokenizer

原始 PR · 作者 juliendenize · 合并时间 2026-05-28 20:36

缺陷修复重要性 5.96 洞察度 4.00

修复 MistralTokenizer 多模态基准测试崩溃

值得合入，修复明确且风险低。建议在合入前确认 `is_mistral_tokenizer` 函数已正确导入并覆盖所有 Mistral 分词器变种。该 PR 的设计决策——在调用侧做 fallback 而非修改 MistralTokenizer 本身——值得肯定，它保持了 MistralTokenizer 的接口纯净。

bugfixperformancemistral

#43846 Fix `OlmoHybridForCausalLM` not initialising

原始 PR · 作者 hmellor · 合并时间 2026-05-28 20:33

缺陷修复重要性 4.90 洞察度 3.00

OlmoHybrid 初始化修复：放宽 rope_type 检查

该 PR 变更简单直接，建议合并。也可考虑添加更细粒度的日志警告，以平衡兼容性与可调试性。

bugfixmodelcleanup

#42423 [EC Connector] Add shutdown API to EC Connector.

原始 PR · 作者 omerpaz95 · 合并时间 2026-05-28 20:28

功能重要性 5.98 洞察度 4.00

为 EC Connector 添加 shutdown 关闭接口

该 PR 改动量小，设计清晰，值得快速审核合并。对于 EC connector 实现者，建议阅读 ECConnectorBase.shutdown 和 ensure_ec_transfer_shutdown 的使用方式，并在子类中覆盖 shutdown 以处理异步操作排空。

kv-connectorv1infra

#41406 Log dummy DP step in iteration details

原始 PR · 作者 vadiklyutiy · 合并时间 2026-05-28 20:18

缺陷修复重要性 6.68 洞察度 4.00

修复DP模式迭代索引不同步，增加dummy步日志

值得快速合并的小而精的修复。设计上对核心路径（`step()`）改动极少，将逻辑隔离在日志上下文管理器中，保持了代码整洁。建议后续考虑异常保护，确保索引递增在异常时也能执行。

bugfixv1infra

第 28 / 269 页 · 共 2148 条

上一页 1 … 26 27 28 29 30 … 269 下一页