修复稀疏NCCL权重传输测试构造
本 PR 为常规 bugfix,变更简单直接,值得快速合并以恢复 CI 稳定性。可关注后续对 `NCCLWeightTransferEngine` 构造签名的进一步演进。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复稀疏NCCL权重传输测试构造
本 PR 为常规 bugfix,变更简单直接,值得快速合并以恢复 CI 稳定性。可关注后续对 `NCCLWeightTransferEngine` 构造签名的进一步演进。
为 CPU/CUTLASS/WNA16 MoE 后端添加 GELU_TANH 激活支持
值得精读,尤其是 WNA16 量化层从硬编码断言到透传 activation 的设计改进,展示了如何将限制性设计改为参数化,以支持更多激活函数。另外,C++ 后端实现 `gelu_tanh_and_mul` 时采用了与 PyTorch 相同的近似公式,可作为参考。测试方法使用了 `monkeypatch` 拦截 `fused_experts` 来验证参数传递,值得学习。
重构PP调度避免气泡,吞吐最高提升3倍
此 PR 是 ModelRunnerV2 的重要性能里程碑,强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计,这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试(如高并发出错恢复)。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-06-03 03:53
移除无意引入的空文件 =4.5.1
无特别需要关注的,属于常规清理。
修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块
值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡:如何在保留优化收益的同时修复边界情况,以及如何通过共享逻辑确保掩码与查找同步。此外,`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。
原始 PR · 作者 WoosukKwon · 合并时间 2026-06-03 02:50
移除 cudagraph_utils 中冗余的 graph_pool 赋值
该 PR 是简单的清理工作,不值得精读。但值得关注的设计决策:BreakableCUDAGraphWrapper 统一通过 current_platform.get_global_graph_pool() 获取 pool,符合单一职责原则。
原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-03 02:26
升级 actions/github-script from v8 to v9
建议合并后观察 CI 状态,无需深入审查代码。若后续 workflow 脚本需要调用 getOctokit,可参考 v9 文档。
MRV2 支持 Llama 与 Mistral 密集模型
建议在合并后密切监控 Llama/Mistral 相关测试的稳定性,并优先处理 force_v1_runner 的环境变量覆盖问题。该 PR 值得精读,展示了 MRV2 激活的标准流程测试适配模式。
参与讨论