Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-10
缺陷修复 重要性 7.80 洞察度 6.00

新增提前拒绝通知机制,避免P节点KV块滞留

该PR值得详细审阅,特别是对于参与KV传输模块的工程师。主要看点包括: - 如何通过构造一个`abort_immediately=True`的合成请求来重用现有的`request_finished`钩子,避免了为清理而引入额外IPC。 - 在`_with_kv_transfer_rejection_cleanup`中利用`has_kv_connector`+`do_remote_prefill`双重门控,确保只对启用connector的请求执行通知。 - 对于社区用户,建议确认自定义EngineClient是否需要实现新方法以避免运行时错误。

缺陷修复 重要性 4.28 洞察度 3.00

稳定 ROCm 关闭流程和分布式编译 CI

此 PR 是维护性修复,值得快速合并。对于 ROCm 开发者,建议关注关闭测试中的超时断言是否仍然导致不稳定,并可考虑采纳 `gemini-code-assist[bot]` 的建议加入缓冲。无需深入精读。

性能优化 重要性 6.16 洞察度 7.00

KV cache 批量交换使用 ACCESS_ORDER_ANY 提升带宽

值得精读,特别是关于 CUDA DMA ordering 的讨论和细粒度性能优化的实践。设计决策(何时放松 ordering、何时保留)可作为类似场景的参考。

重构 重要性 6.12 洞察度 5.00

泛化 CLI 可选布尔/字符串参数处理

值得精读。该 PR 虽小,但展示了一个很好的代码去特化(despecialization)模式:将散落的局部处理逻辑统一收拢到基础设施函数中,降低维护成本。对于 CLI 参数类型推断的设计有参考价值。

缺陷修复 重要性 7.73 洞察度 7.00

修复多模态模型 SP 和 PP+SP residual 处理 bug

值得精读的设计:residual 切片使用 `tp_rank` 感知的索引,以及 `sync_and_gather_intermediate_tensors` 中通过 all-gather 保证 SP + PP 兼容性。此外,团队对三种方案的权衡分析展现了良好的设计思维。建议关注后续 #36823 和 MoE SP 相关 PR。

参与讨论