修复 disagg 服务中 top_logprobs token ID 占位符错误
建议合并。该 PR 修复了一个数据损坏 bug,并补充了必要的单元测试,代码简洁清晰。值得精读的是其修复方式——通过修改循环变量解包避免作用域污染,这种命名冲突导致的问题在实际开发中常见,可作为一个教训案例。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 disagg 服务中 top_logprobs token ID 占位符错误
建议合并。该 PR 修复了一个数据损坏 bug,并补充了必要的单元测试,代码简洁清晰。值得精读的是其修复方式——通过修改循环变量解包避免作用域污染,这种命名冲突导致的问题在实际开发中常见,可作为一个教训案例。
添加 MTP + PD 分解测试覆盖 Qwen3.5
本 PR 设计清晰,将测试配置与执行分离,便于后续扩展。建议关注测试结果,确保 MTP 在多种硬件配置下的稳定性。可以考虑后续添加更多 MTP 模型基线。
原始 PR · 作者 shen-shanshan · 合并时间 2026-05-19 16:43
移除 CLIPAttention 中冗余的分支代码
该 PR 属于细微清理,无需精读。但值得关注的是一致性清理思路:在多模态模型代码演进中,持续消除冗余条件判断有助于保持代码简洁。
原始 PR · 作者 WoosukKwon · 合并时间 2026-05-19 16:12
重命名 DeepSeek V4 核心文件以规范化命名
本 PR 为纯重构,无功能变更,建议快速合并。值得关注的是 DeepSeek V4 模型架构正逐步向硬件隔离的模块化方向发展(参考 #43004、#43039),建议保持该趋势。
MooncakeStore 新增混合注意力缓存支持
建议仔细审阅 `MooncakeStoreCoordinator.find_longest_cache_hit` 的实现,确保与内部 `HybridKVCacheCoordinator` 的掩码计算逻辑一致。优先处理 review 中提出的 `key_list` 空检查和 segment 注册过滤问题,建议添加对应边界测试。
修复异步调度器在恢复后丢弃首个 token 的 bug
该 PR 值得精读,尤其对理解 vLLM 异步调度器如何处理抢占和恢复的工程师。关键设计决策:用精确计数器替代布尔标志,从而支持流水线深度 >1 的场景(如投机解码)。建议后续补充单元测试覆盖连续抢占场景。
原始 PR · 作者 WoosukKwon · 合并时间 2026-05-19 15:52
迁移DSV4算子至模型目录
建议快速合入,以解锁后续重构步骤。该 PR 是 DSV4 模型重构的必要环节,逻辑简单可靠。
将 beam search 逻辑提取到独立的 Mixin 类中,统一离线与在线入口。
该 PR 是清晰的重构,值得阅读以理解 vLLM 入口点的 mixin 设计模式。但需注意 review 中未解决的索引 bug 和性能问题,建议在合并前或后续提交中修复。
参与讨论