Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 06:37 同步状态:空闲 下次计划:2026-06-04 07:37

PR 列表

更多筛选
2026-06-03

#44036 [CI/Build] Bump flashinfer to v0.6.12

原始 PR · 作者 vadiklyutiy · 合并时间 2026-06-03 06:19

基础设施 重要性 3.03 洞察度 2.00

将 flashinfer 升级至 v0.6.12

建议合并,这是常规依赖升级,无风险。关注后续是否出现与 flashinfer 0.6.12 相关的运行时问题。

缺陷修复 重要性 3.66 洞察度 2.00

修复稀疏NCCL权重传输测试构造

本 PR 为常规 bugfix,变更简单直接,值得快速合并以恢复 CI 稳定性。可关注后续对 `NCCLWeightTransferEngine` 构造签名的进一步演进。

功能 重要性 7.64 洞察度 5.00

为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持

值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。

#42187 [ModelRunnerV2] Avoid pipeline parallel bubbles

原始 PR · 作者 njhill · 合并时间 2026-06-03 05:02

性能优化 重要性 9.36 洞察度 7.00

重构PP调度避免气泡,吞吐最高提升3倍

此 PR 是 ModelRunnerV2 的重要性能里程碑,强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计,这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试(如高并发出错恢复)。

缺陷修复 重要性 8.69 洞察度 7.00

修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块

值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡:如何在保留优化收益的同时修复边界情况,以及如何通过共享逻辑确保掩码与查找同步。此外,`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。

参与讨论