将异步 EPLB 设为默认,降低尾部延迟并消除调度停顿
值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步,体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟,是性能与实现复杂度之间的良好权衡。
A high-throughput and memory-efficient inference and serving engine for LLMs
将异步 EPLB 设为默认,降低尾部延迟并消除调度停顿
值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步,体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟,是性能与实现复杂度之间的良好权衡。
WNA16 MoE 后端选择重构至 oracle 模块,新增 FlashInfer Monolithic 支持
值得精读,特别是 oracle 模式的设计和 kernel 实例存储位置的决策。关注 review 中关于 state sharing 的修改,以及后续的兼容性修复。
PP>1 时禁用 allreduce_rms_fusion 防死锁
本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。
原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-29 22:40
为核心池化方法添加单元测试
值得精读,尤其是 `_make_pooling_cursor` 和 `_make_metadata` 辅助函数的设计——它们封装了复杂的 `PoolingMetadata` 构造逻辑,使测试代码简洁且易于扩展。同时,测试中对 partial prefill 和 chunked prefill 的边界处理也值得参考。
原始 PR · 作者 chunyang-wen · 合并时间 2026-05-29 22:40
优化文档中首次出现 ITL 时给出全称
该 PR 属于纯文档改进,无需精读。但值得关注的是其遵循了“缩写首次出现时给出全称”的良好实践,可作为同类文档贡献的参考。
集中 HF Hub 调用并附带 vLLM 库标识
值得精读,尤其是 `repo_utils.py` 中的设计模式(单例 + library tagging)。对于计划集成外部服务的项目有借鉴意义。建议合入后通知团队遵循新的调用约定。
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-29 22:02
移除 CPU 构建中无效的 triton-cpu 依赖
值得精读,尤其是学习如何将不稳定的外部依赖从 Python 包声明迁移到容器构建阶段,以提高跨平台兼容性。Docker 多阶段构建中条件化构建外部依赖的技巧具有通用参考价值。
PR 无文档变更时跳过 ReadTheDocs 构建
建议合并。这是一次精益的 CI 优化,改动小、收益明确、风险可控。代码注释清晰(第二 commit 补充了路径说明),后续维护成本低。
参与讨论