Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

attention 相关 PR

2026-06-03
重构 重要性 5.31 洞察度 4.00

标准化 CPU KV cache 布局为 blocks-first

建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。

2026-06-02
缺陷修复 重要性 6.25 洞察度 5.00

修复 V2 模型运行器中 attn 元数据 max_seq_len 传递错误

值得精读,尤其是了解如何将 `DefaultModelState` 中的优化模式推广到其他 ModelState 实现,以及 speculative decoding 中 draft max_seq_len 的动态管理方式。设计决策清晰,代码差异小但影响正确性。

2026-05-30
缺陷修复 重要性 5.86 洞察度 6.00

修复 DeepSeek V4 KV cache reshape 越界崩溃

值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。

2026-05-29
缺陷修复 重要性 5.94 洞察度 6.00

PP>1 时禁用 allreduce_rms_fusion 防死锁

本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。

#43961 [Bugfix] Corrupted MLA + linear attention

原始 PR · 作者 gau-nernst · 合并时间 2026-05-29 20:00

缺陷修复 重要性 6.26 洞察度 5.00

修复 MLA 注意力 KV 缓存腐败

值得合并,修复明确,风险极低。建议 reviewer 额外关注是否还有其他 attention spec 被遗漏(如未来的新类型),可考虑 vadiklyutiy 建议的简化方案——无条件清零所有新分配 block。另外,建议在开发者文档中记录哪些 attention kernel 需要清零 KV cache block。

缺陷修复 重要性 6.72 洞察度 5.00

修复 ROCm AITER cross-attention 共享 KV 缓存布局问题

推荐合并。修正逻辑清晰、变更最小、已通过回归测试。可作为「架构演进中保持后端兼容性」的典型案例精读:展示了在大规模 layout 标准化过程中,如何通过细粒度的条件分支保护混合使用不同布局的共享资源,避免回归。

重构 重要性 7.53 洞察度 6.00

迁移注意力与缓存内核至 torch stable ABI

此 PR 是持续 ABI 迁移的重要一环,值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。 普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。 建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移,并考虑为缓存操作添加更多单元测试。