Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

v2 相关 PR

2026-05-23
功能 重要性 7.08 洞察度 4.00

支持 Model Runner V2 中 KV 缓存层的共享

值得精读,因涉及 MRV2 核心缓存架构的扩展。建议后续引入显式的依赖顺序解析(如拓扑排序)替代字典迭代顺序,以消除潜在顺序依赖风险。同时补充单元测试覆盖共享层在 `_allocate_kv_cache` 中的绑定逻辑。

2026-05-19
缺陷修复 重要性 5.42 洞察度 4.00

禁用 V2 模型运行器的并行草稿解码

该 PR 是必需的 bug 修复,内容简洁、风险低。值得所有涉及 V2 模型运行器和推测解码的团队成员关注。它为 V2 并行草稿功能的后续实现提供了一个清晰的追踪点。

2026-04-24
功能 重要性 8.85 洞察度 6.00

统一 V1 和 V2 合成拒绝采样接受率配置

建议仔细阅读 `vllm/config/speculative.py` 中的配置解析和校验逻辑(最小方差调度设计简洁),以及 Triton kernel 的改动。对于自行实现推测解码的开发者,`unconditional_to_conditional_rates` 转换函数值得复用。PR 整体设计合理,测试覆盖完整,应批准合并。