#37236 Fix ambiguous num_blocks for hybrid attn mamba
原始 PR · 作者 collinmccarthy · 合并时间 2026-03-30 19:09
修复混合注意力 Mamba 模型中 num_blocks 为 2 时的 KV 缓存布局歧义问题。
对于涉及混合注意力或 Mamba 模型的开发者,值得精读 _update_hybrid_attention_mamba_layout 方法,了解如何通过 get_kv_cache_block_dim 处理布局歧义,并参考测试案例确保覆盖边界条件。
参与讨论