功能
重要性 7.08
洞察度 4.00
支持 Model Runner V2 中 KV 缓存层的共享
值得精读,因涉及 MRV2 核心缓存架构的扩展。建议后续引入显式的依赖顺序解析(如拓扑排序)替代字典迭代顺序,以消除潜在顺序依赖风险。同时补充单元测试覆盖共享层在 `_allocate_kv_cache` 中的绑定逻辑。
标签列表
聚合结果
支持 Model Runner V2 中 KV 缓存层的共享
值得精读,因涉及 MRV2 核心缓存架构的扩展。建议后续引入显式的依赖顺序解析(如拓扑排序)替代字典迭代顺序,以消除潜在顺序依赖风险。同时补充单元测试覆盖共享层在 `_allocate_kv_cache` 中的绑定逻辑。
禁用 V2 模型运行器的并行草稿解码
该 PR 是必需的 bug 修复,内容简洁、风险低。值得所有涉及 V2 模型运行器和推测解码的团队成员关注。它为 V2 并行草稿功能的后续实现提供了一个清晰的追踪点。
原始 PR · 作者 benchislett · 合并时间 2026-04-24 08:48
统一 V1 和 V2 合成拒绝采样接受率配置
建议仔细阅读 `vllm/config/speculative.py` 中的配置解析和校验逻辑(最小方差调度设计简洁),以及 Triton kernel 的改动。对于自行实现推测解码的开发者,`unconditional_to_conditional_rates` 转换函数值得复用。PR 整体设计合理,测试覆盖完整,应批准合并。