Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

kv-connector 相关 PR

2026-04-18

#38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint

作者 nithinvc · 合并时间 2026-04-18 11:31

功能 重要性 8.56 洞察度 6.00

为解耦推理端点添加多模态支持,实现渲染到生成的零客户端转换。

frontend feature v1 multi-modality kv-connector

建议开发者和架构师精读 `vllm/entrypoints/serve/disagg/mm_serde.py` 的序列化实现,关注整数张量处理和Msgpack配置,以及 `tests/entrypoints/serve/disagg/test_serving_multimodal_tokens.py` 的端到端测试设计,以理解多模态数据流的集成方式。

2026-04-17

#39617 [kv_offload]: Fix num CPU blocks for UniformTypeKVCacheSpecs

作者 orozery · 合并时间 2026-04-17 20:13

缺陷修复 重要性 6.11 洞察度 5.00

修复 CPU 卸载中 UniformTypeKVCacheSpecs 的 CPU 块数计算逻辑,避免块池大小不足导致越界存储。

bugfix v1 kv-connector

该 PR 值得精读,特别是关注从基于页面大小的假设性计算转向基于实际张量分配的计算这一设计决策。这体现了对缓存规格抽象的更健壮处理,避免了硬编码假设。建议结合 review 讨论,思考如何为类似核心路径添加测试覆盖。

2026-04-16

#39706 [Misc] `toy_proxy_server` handle min_tokens

作者 NickLucche · 合并时间 2026-04-16 23:08

缺陷修复 重要性 4.18 洞察度 3.00

修复 toy_proxy_server 处理 min_tokens 参数时因 P 服务不支持而导致的验证崩溃。

kv-connector v1 test

该 PR 变更简单直接,适合快速了解测试工具中参数传递的兼容性处理。值得关注的设计决策是选择显式保存和重新添加参数值,而非直接 `pop` 丢弃,这可能反映了对 D 服务参数需求的明确假设。

#39922 [Nixl] Bump Nixl version to 0.10.1

作者 NickLucche · 合并时间 2026-04-16 18:53

基础设施 重要性 2.37 洞察度 4.00

将 Nixl KV 连接器版本上限提升至 0.10.1,以解决依赖安装问题。

kv-connector v1

此 PR 变更简单,主要涉及依赖管理,无需精读。但值得关注的是 review 中关于版本约束设计的讨论,它反映了在确保修复应用与保持向后兼容性之间的权衡。对于依赖管理策略有深入兴趣的工程师可参考此讨论。

缺陷修复 重要性 3.46 洞察度 2.00

修复NIXL连接器HMA测试中因GPU内存利用率设置过高导致的偶发性失败。

bugfix v1 kv-connector test

该PR变更简单直接,无需精读。对于工程师,可关注其作为解决CI不稳定性问题的范例:通过微调资源相关参数(如内存利用率)来适应测试环境波动,而非修改核心逻辑。

缺陷修复 重要性 5.82 洞察度 5.00

修复NIXL连接器中非Mamba模型远程逻辑块ID到内核块ID的转换缺失问题。

bugfix v1 kv-connector nixl

该PR值得精读,因为它展示了一个典型的重构后遗症修复案例。关注点包括:1) 如何在`_read_blocks_for_req`方法中通过`self._has_mamba`分支区分Mamba与非Mamba路径的块ID转换逻辑;2) review中关于使用本地vs远程比率的讨论,这反映了分布式系统中异构部署的设计权衡;3) 参数化测试如何同时验证两种模型类型的转换正确性。

#39596 [Mooncake] Fix mixed MLA+Eagle block-size validation

作者 zhewenl · 合并时间 2026-04-16 02:36

缺陷修复 重要性 6.20 洞察度 5.00

修复Mooncake连接器混合MLA+Eagle缓存注册时的块大小断言错误。

kv-connector v1 bugfix

此PR值得精读,特别是`_sync_block_size_with_kernel`方法展示了如何通过后端元数据动态调整块大小,这是一个重要的设计决策,适用于混合注意力后端场景,对理解vLLM的KV连接器架构有帮助。

功能 重要性 5.60 洞察度 4.00

为LMCache MP连接器传播cache_salt,支持按用户缓存隔离。

kv-connector v1 feature

该PR值得精读,因为它展示了如何在分布式缓存系统中传播上下文信息以支持新功能(如按用户隔离)。关注点包括:数据流设计(从请求到跟踪器、元数据、适配器)、默认值处理(`or ""`确保向后兼容)、以及与外部系统的接口协调。