#44128 [Misc] Remove dead VLLM_RPC_TIMEOUT env var and fix profiling doc that references it
原始 PR · 作者 DaoyuanLi2816 · 合并时间 2026-06-03 08:22
移除死环境变量并修正文档
此 PR 展示了如何安全清理死代码和同步文档,适用于类似的遗留清理任务。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 DaoyuanLi2816 · 合并时间 2026-06-03 08:22
移除死环境变量并修正文档
此 PR 展示了如何安全清理死代码和同步文档,适用于类似的遗留清理任务。
b12x MoE 后端支持 W4A16 NVFP4 检查点
此 PR 值得精读,因为它展示了一个精心设计的元数据兼容性修复,同时也体现了在热路径中避免动态分配的良好实践。
原始 PR · 作者 vadiklyutiy · 合并时间 2026-06-03 06:19
将 flashinfer 升级至 v0.6.12
建议合并,这是常规依赖升级,无风险。关注后续是否出现与 flashinfer 0.6.12 相关的运行时问题。
修复稀疏NCCL权重传输测试构造
本 PR 为常规 bugfix,变更简单直接,值得快速合并以恢复 CI 稳定性。可关注后续对 `NCCLWeightTransferEngine` 构造签名的进一步演进。
为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持
值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。
重构PP调度避免气泡,吞吐最高提升3倍
此 PR 是 ModelRunnerV2 的重要性能里程碑,强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计,这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试(如高并发出错恢复)。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-06-03 03:53
移除无意引入的空文件 =4.5.1
无特别需要关注的,属于常规清理。
修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块
值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡:如何在保留优化收益的同时修复边界情况,以及如何通过共享逻辑确保掩码与查找同步。此外,`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。
参与讨论