修复 HiMamba HiCache 预取在 L3 传输后挂起
精读价值中等;对于使用 HiCache 和 Mamba 模型的开发者值得关注。建议阅读 `hi_mamba_radix_cache.py` 的 `can_terminate_prefetch` 方法,理解预取生命周期管理。
标签列表
聚合结果
修复 HiMamba HiCache 预取在 L3 传输后挂起
精读价值中等;对于使用 HiCache 和 Mamba 模型的开发者值得关注。建议阅读 `hi_mamba_radix_cache.py` 的 `can_terminate_prefetch` 方法,理解预取生命周期管理。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-05 03:01
Mamba 预取长度截断至可用主机 KV 大小
值得关注,尤其是使用 HiCache + Mamba 模型的用户。设计上参考了 HiRadixCache 的做法,属于鲁棒性改进。建议精读 `prefetch_from_storage` 方法中的截断逻辑。
修复 Mamba 额外缓冲区 ping-pong 槽位泄漏
值得精读,特别是流式会话和内存管理的逻辑。`save_from_req` 和 `free_mamba_cache` 中的所有权转移与引用清零模式值得在其他资源释放路径中参考。建议添加针对 `extra_buffer` + `overlap_schedule` 的集成测试。
降低 Mamba 预填充内存分配开销
该 PR 值得精读,尤其是 MambaPool 分组分配的设计模式,可以推广到其他类似的热点分配路径。关注 `alloc_group_end` 的提前释放逻辑和与现有 `free` 调用的交互。建议添加单元测试覆盖分组分配的正确性(例如分配后释放、迭代器耗尽回退等场景)。
原始 PR · 作者 hanming-lu · 合并时间 2026-06-04 03:42
新增 Mamba 延迟额外缓冲策略,减少内存占用
值得精读,特别是理解 Mamba 调度器的状态管理设计。关注 `_handle_finish_state_updated_req` 的重构、`mamba_lazy_prealloc_at_boundary` 的边界处理和 `release_kv_cache` 的 `is_insert` 参数传递,这些是模式复用和抽象的关键。
修复 Mamba COW 路径 SWA 锁误释放
强烈建议阅读此 PR,它展示了一个易忽略的锁上下文传递问题,属于典型的并发 bug 模式。设计上,lock_ref 的 inc/dec 需要严格配对且携带边界信息,对理解 SGLang 缓存系统的锁模型很有帮助。建议作者补充单元测试,验证 CoW 路径下锁计数的正确性。
放宽 Mamba 缓存 KL 阈值 0.003 → 0.005
该 PR 是典型的测试阈值微调,无架构或逻辑变更,仅需了解。对于关注 CI 测试稳定性的团队值得注意。
原始 PR · 作者 Emmanuel0612 · 合并时间 2026-06-02 15:24
为 AMD CI 注册 mamba 状态分散测试
该 PR 是标准的测试套件扩展,可快速合并。