Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-03

#44082 [Bugfix] Cache the EAGLE/MTP lookahead block in the SWA prefix-cache mask

原始 PR · 作者 ivanium · 合并时间 2026-06-03 03:21

缺陷修复重要性 8.69 洞察度 7.00

修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块

值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡：如何在保留优化收益的同时修复边界情况，以及如何通过共享逻辑确保掩码与查找同步。此外，`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。

bugfixv1kv-connector

#44338 [MRV2] Remove assignment of graph_pool in cudagraph_utils

原始 PR · 作者 WoosukKwon · 合并时间 2026-06-03 02:50

重构重要性 3.94 洞察度 2.00

移除 cudagraph_utils 中冗余的 graph_pool 赋值

该 PR 是简单的清理工作，不值得精读。但值得关注的设计决策：BreakableCUDAGraphWrapper 统一通过 current_platform.get_global_graph_pool() 获取 pool，符合单一职责原则。

refactorcleanupv1

#39667 Bump actions/github-script from 8.0.0 to 9.0.0

原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-03 02:26

基础设施重要性 3.29 洞察度 1.00

升级 actions/github-script from v8 to v9

建议合并后观察 CI 状态，无需深入审查代码。若后续 workflow 脚本需要调用 getOctokit，可参考 v9 文档。

ci/buildinfradependencies

#43458 [MRV2] Also enable MRV2 for Llama and Mistral dense models

原始 PR · 作者 njhill · 合并时间 2026-06-03 02:18

功能重要性 6.71 洞察度 5.00

MRV2 支持 Llama 与 Mistral 密集模型

建议在合并后密切监控 Llama/Mistral 相关测试的稳定性，并优先处理 force_v1_runner 的环境变量覆盖问题。该 PR 值得精读，展示了 MRV2 激活的标准流程测试适配模式。

featurellamamistral

#44283 [Anthropic] Support system role messages inside messages array

原始 PR · 作者 chaunceyjiang · 合并时间 2026-06-03 02:13

功能重要性 7.09 洞察度 4.00

支持 Anthropic messages 数组内联 system 角色

该 PR 解决了一个实际的客户端兼容性问题，实现简洁且测试充分，推荐合并。设计上值得关注的点是：通过先收集再合并的方式处理两处 system 信息来源，而不是分别追加，避免消息顺序错误。

frontendfeaturebugfix

#43339 [Feature] Support EPLB for DeepSeek v4 Mega Moe

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 01:56

功能重要性 8.58 洞察度 6.00

为DeepSeek V4 Mega MoE添加EPLB负载均衡支持

建议在合并前修复PP模式下断言失败的问题。PR的设计(重用现有映射函数、明确环境变量覆盖条件)值得肯定。后续可增加针对PP模式和不同EPLB后端的测试。对于使用DeepSeek V4 Mega MoE的团队，此PR能显著提升大规模部署效率，推荐评估并合入。

featuredeepseekmoe

#43669 [Bugfix] flashinfer: fail fast when --kv-cache-dtype nvfp4 used on unsupported arch

原始 PR · 作者 Kartavyasonar · 合并时间 2026-06-03 01:50

缺陷修复重要性 5.79 洞察度 5.00

NVFP4 KV-Cache 在不支持的架构上提前报错

该 PR 是一个典型的小而美的 bugfix，适合所有开发者阅读以学习“快速失败”原则。实现简洁，推荐精读。

bugfixv1nvidia

#43100 [BugFix] Fix Humming MoE deploy error

原始 PR · 作者 adotdad · 合并时间 2026-06-03 00:32

缺陷修复重要性 5.32 洞察度 3.00

修复 Humming MoE 部署时 quant config 与 schema 初始化遗漏

建议合并。该 PR 修复了明确的部署阻塞 bug，改动量小且经过本地验证。建议后续为该路径补充测试，防止回归。

bugfixquantizationmoe

第 8 / 269 页 · 共 2148 条

上一页 1 … 6 7 8 9 10 … 269 下一页