Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 06:37 同步状态：空闲下次计划：2026-06-04 07:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-03

#44128 [Misc] Remove dead VLLM_RPC_TIMEOUT env var and fix profiling doc that references it

原始 PR · 作者 DaoyuanLi2816 · 合并时间 2026-06-03 08:22

重构重要性 4.75 洞察度 2.00

移除死环境变量并修正文档

此 PR 展示了如何安全清理死代码和同步文档，适用于类似的遗留清理任务。

cleanupdocumentationci/build

#43332 [MoE/b12x] Accept W4A16 (kNvfp4Static, None) in FlashInferB12xExperts supports check

原始 PR · 作者 ECMGit · 合并时间 2026-06-03 06:20

功能重要性 6.66 洞察度 5.00

b12x MoE 后端支持 W4A16 NVFP4 检查点

此 PR 值得精读，因为它展示了一个精心设计的元数据兼容性修复，同时也体现了在热路径中避免动态分配的良好实践。

featurequantizationmoe

#44036 [CI/Build] Bump flashinfer to v0.6.12

原始 PR · 作者 vadiklyutiy · 合并时间 2026-06-03 06:19

基础设施重要性 3.03 洞察度 2.00

将 flashinfer 升级至 v0.6.12

建议合并，这是常规依赖升级，无风险。关注后续是否出现与 flashinfer 0.6.12 相关的运行时问题。

ci/buildinfranvidia

#44345 [BugFix] Fix sparse NCCL weight transfer test construction

原始 PR · 作者 bedeks · 合并时间 2026-06-03 05:51

缺陷修复重要性 3.66 洞察度 2.00

修复稀疏NCCL权重传输测试构造

本 PR 为常规 bugfix，变更简单直接，值得快速合并以恢复 CI 稳定性。可关注后续对 `NCCLWeightTransferEngine` 构造签名的进一步演进。

bugfixtest

#42027 [Kernel][MoE] Add GELU_TANH to CPU, CUTLASS, and WNA16 MoE backends

原始 PR · 作者 lesj0610 · 合并时间 2026-06-03 05:12

功能重要性 7.64 洞察度 5.00

为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持

值得精读，尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策，以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。

featuremoekernel

#42187 [ModelRunnerV2] Avoid pipeline parallel bubbles

原始 PR · 作者 njhill · 合并时间 2026-06-03 05:02

性能优化重要性 9.36 洞察度 7.00

重构PP调度避免气泡，吞吐最高提升3倍

此 PR 是 ModelRunnerV2 的重要性能里程碑，强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计，这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试（如高并发出错恢复）。

performanceschedulerrefactor

#44350 [Misc] Remove stray empty file

原始 PR · 作者 MatthewBonanni · 合并时间 2026-06-03 03:53

cleanup 重要性 1.83 洞察度 1.00

移除无意引入的空文件 =4.5.1

无特别需要关注的，属于常规清理。

cleanup

#44082 [Bugfix] Cache the EAGLE/MTP lookahead block in the SWA prefix-cache mask

原始 PR · 作者 ivanium · 合并时间 2026-06-03 03:21

缺陷修复重要性 8.69 洞察度 7.00

修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块

值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡：如何在保留优化收益的同时修复边界情况，以及如何通过共享逻辑确保掩码与查找同步。此外，`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。

bugfixv1kv-connector

第 7 / 269 页 · 共 2147 条

上一页 1 … 5 6 7 8 9 … 269 下一页