#43097 [Docs][PD][NIXL] Bidirectional kv-cache transfer
原始 PR · 作者 NickLucche · 合并时间 2026-05-20 15:02
新增双向 KV 缓存传输的完整文档
建议阅读,以了解 vLLM 的 KV 传输新特性。设计决策中关于代理状态管理的讨论值得关注。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 NickLucche · 合并时间 2026-05-20 15:02
新增双向 KV 缓存传输的完整文档
建议阅读,以了解 vLLM 的 KV 传输新特性。设计决策中关于代理状态管理的讨论值得关注。
原始 PR · 作者 NickLucche · 合并时间 2026-05-20 14:58
新增 NIXL KV Cache 租约续期设计文档
建议所有使用或评估分离式 prefill/decode 部署的团队成员阅读该文档,尤其是调度器和工作器开发者。文档中关于心跳时机、批量续期和配置项的设计决策值得关注。
将 model executor 测试从 H200 回退到 L4
此 PR 为临时性 CI 配置调整,关注度低。建议在驱动更新后恢复 H200 测试,或采纳 bot 建议显式指定 L4 以增加确定性。
将二级 tier 构造参数从 VllmConfig 改为 OffloadingSpec
该 PR 为模块内部重构,逻辑清晰、改动精简,适合熟悉 KV offload 模块的同学快速了解其接口设计原则。建议关注后续是否计划将 `OffloadingSpec` 进一步拆分为更细粒度的配置项。
为 DeepSeek-V4-Flash 添加 GSM8K 评估配置
该 PR 值得 CI 维护者和 DeepSeek 模型负责人关注,以确认 server_args 的实际解析行为并验证阈值合理性。当前配置可作为 baseline,后续宜在真实环境中验证其有效性。
避免异步输出占位符前向扫描,提升长序列解码吞吐
**强烈建议合并**。该 PR 通过 6 行添加、1 行删除实现了一个优雅且高性能的优化,基准测试证明了显著收益。变更经过 author 手动审查和 reviewer 批准,风险极低。值得关注的是 `update_async_output_token_ids` 方法中逆向扫描的设计模式,可作为类似占位符查找场景的参考。
增加预排队选项以提升吞吐基准测试可重复性
建议精读该 PR,特别是 enqueue_chat 的设计模式以及睡眠唤醒控制流。值得关注的是如何通过 sleep(level=0) 暂停调度以实现全量入队,这是 vLLM 中一种重要的调度控制手段。
原始 PR · 作者 benchislett · 合并时间 2026-05-20 11:15
修复 DFlash 辅助层索引偏移 1 的问题
值得精读,尤其是配置层与运行时层如何通过双向偏移解决第三方模型与框架索引约定不一致的设计模式。Review 中的讨论展示了如何通过仔细的防御性编程防止空值引起的回归。
参与讨论