Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

speculative-decoding 相关 PR

2026-06-04

分离 speculator prefill CUDA graph 的 attention state

强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。

功能 重要性 9.18 洞察度 5.00

新增 Gemma4 Unified 编码器无关多模态模型

值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。

2026-06-03
缺陷修复 重要性 8.69 洞察度 7.00

修复 EAGLE+SWA 前缀缓存掩码丢失 lookahead 块

值得所有关注 vLLM 前缀缓存和推测解码的开发者精读。特别是设计权衡:如何在保留优化收益的同时修复边界情况,以及如何通过共享逻辑确保掩码与查找同步。此外,`SpecGroup` 的引入为后续多 spec 组管理提供了更清晰的数据结构。

2026-06-02
缺陷修复 重要性 7.73 洞察度 5.00

修复DFlash前缀缓存因缺lookahead块的损坏

建议精读此PR及关联PR #43733,理解DFlash与EAGLE在KV写入时序上的根本差异,以及为何需要调整lookahead分配策略。设计上将条件抽取为独立方法并区分bonus token的做法值得借鉴。对于维护者,建议在合并后运行DFlash的端到端测试(如`test_dflash.py`)验证无回归。

缺陷修复 重要性 6.25 洞察度 5.00

修复 V2 模型运行器中 attn 元数据 max_seq_len 传递错误

值得精读,尤其是了解如何将 `DefaultModelState` 中的优化模式推广到其他 ModelState 实现,以及 speculative decoding 中 draft max_seq_len 的动态管理方式。设计决策清晰,代码差异小但影响正确性。

缺陷修复 重要性 5.71 洞察度 5.00

修复并稳定 ROCm 上 EAGLE3 测试

该 PR 值得精读,尤其是断言语义的调整和 EP 条件判断的设计,展示了如何在测试中平衡严格性与实用性。建议未来审视是否有其他 speculative decoding 测试需要类似处理。

2026-05-29

#43565 [XPU] support MTP of gdn attention

原始 PR · 作者 mayuyuace · 合并时间 2026-05-29 17:10

功能 重要性 6.47 洞察度 5.00

XPU GDN 注意力支持 MTP 推测解码

该 PR 功能明确、改动集中,值得相关开发人员精读。关注的要点: - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式,便于后续扩展。 - 与 CUDA 端同类实现(参考 `qwen_gdn_linear_attn.py`)的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳,但可作为后续代码清洁的切入点。

#43859 [Model]Support Step-3.7-Flash

原始 PR · 作者 ltd0924 · 合并时间 2026-05-29 08:01

功能 重要性 9.18 洞察度 6.00

支持 Step-3.7-Flash 多模态 MoE 模型及 MTP 推测解码

该 PR 值得精读,尤其是 Step3p5MTPProposer 中 per-group slot mapping 的实现,是处理多 KV cache group 推测解码的典型模式。配置层中通过 hf_config_override 自动转换模型类型的设计也值得借鉴。建议关注后续对该模型的测试覆盖和性能报告。