Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

kv-connector 相关 PR

2026-06-04

#37505 [KVCache] Support Pluggable KVCacheSpec

原始 PR · 作者 MengqingCao · 合并时间 2026-06-04 00:05

功能 重要性 9.36 洞察度 7.00

引入可插拔 KVCacheSpec 注册机制,支持外部自定义 Spec 和 Manager

此 PR 定义了一个重要的架构扩展点,设计清晰(注册表 + 平台钩子 + per-spec 方法),值得团队精读并作为未来插件系统的参考。特别关注 `KVCacheSpecRegistry` 的 MRO 查找策略、`uniform_type_base_spec` 的分组语义以及 `check_kv_cache_spec_registry` 的防御性设计。对外部平台开发者来说,这是一个必须了解的变更。

2026-06-03
缺陷修复 重要性 6.99 洞察度 6.00

将 SharedOffloadRegion 块对齐到页大小以支持 O_DIRECT

建议阅读:该 PR 展示了如何通过类变量实现多态对齐策略,并在不影响用户配置的前提下完成底层对齐。注释清晰,设计决策值得参考。

性能优化 重要性 8.24 洞察度 8.00

Triton内核加速CPU→GPU小块批量拷贝

建议精读。该PR展示了如何通过数据驱动的调优(阈值扫描、SM数量选择)将定制Triton内核应用于关键IO路径,并提供了详实的E2E基准验证。设计决策(如初始化时解析函数、缓冲复用)值得借鉴。

功能 重要性 4.89 洞察度 4.00

移除 HMA 模型在 Tiering Offload 中的限制

该 PR 本身改动极小(仅删除一行),但具有较大的功能影响。建议开发者和测试人员关注新增的兼容模型列表,并对 PR body 中列出的失败模型进行进一步调查。作为“解除封锁”类变更,值得快速合并,但后续应跟进失败模型的 root cause。

缺陷修复 重要性 8.69 洞察度 7.00

修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块

值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡:如何在保留优化收益的同时修复边界情况,以及如何通过共享逻辑确保掩码与查找同步。此外,`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。

2026-06-02