#44393 [Attention][CPU] Standardize kv layout to blocks first
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-03 19:03
标准化 CPU KV cache 布局为 blocks-first
建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。
标签列表
聚合结果
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-03 19:03
标准化 CPU KV cache 布局为 blocks-first
建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。
原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 14:07
修复 V2 模型运行器中 attn 元数据 max_seq_len 传递错误
值得精读,尤其是了解如何将 `DefaultModelState` 中的优化模式推广到其他 ModelState 实现,以及 speculative decoding 中 draft max_seq_len 的动态管理方式。设计决策清晰,代码差异小但影响正确性。
原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 13:56
修复 V2 模型运行器未清零混合+fp8 KV缓存新块的 bug
修复 DeepSeek V4 KV cache reshape 越界崩溃
值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。
PP>1 时禁用 allreduce_rms_fusion 防死锁
本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。
原始 PR · 作者 gau-nernst · 合并时间 2026-05-29 20:00
修复 MLA 注意力 KV 缓存腐败
值得合并,修复明确,风险极低。建议 reviewer 额外关注是否还有其他 attention spec 被遗漏(如未来的新类型),可考虑 vadiklyutiy 建议的简化方案——无条件清零所有新分配 block。另外,建议在开发者文档中记录哪些 attention kernel 需要清零 KV cache block。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-29 16:43
修复 ROCm AITER cross-attention 共享 KV 缓存布局问题
推荐合并。修正逻辑清晰、变更最小、已通过回归测试。可作为「架构演进中保持后端兼容性」的典型案例精读:展示了在大规模 layout 标准化过程中,如何通过细粒度的条件分支保护混合使用不同布局的共享资源,避免回归。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-29 12:44
迁移注意力与缓存内核至 torch stable ABI
此 PR 是持续 ABI 迁移的重要一环,值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。 普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。 建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移,并考虑为缓存操作添加更多单元测试。