#21509 [MLX] Support radix cache
作者 yeahdongcn · 合并时间 2026-04-18 07:00
为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。
该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。
标签列表
聚合结果
作者 yeahdongcn · 合并时间 2026-04-18 07:00
为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。
该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。
作者 hnyls2002 · 合并时间 2026-04-16 08:12
修复 spec v2 流式会话奖励槽会计问题,移除兼容性门并添加全面测试矩阵。
建议精读核心源码修改(特别是 `eagle_info_v2.py` 和 `scheduler_output_processor_mixin.py`),关注奖励槽会计的时序调整设计;同时浏览测试文件以理解覆盖范围,这对维护流式会话模块至关重要。
作者 hnyls2002 · 合并时间 2026-04-16 06:05
修复流式会话中Spec V2解码超限时SWA(滑动窗口注意力)内存泄漏问题。
该PR值得精读,尤其是关注 `_trim_overshoot` 和 `_free_tail` 方法如何协同维护KV和SWA状态的一致性。设计决策体现了对称性修复的重要性,对于处理流式会话中的内存管理有借鉴意义。
作者 hnyls2002 · 合并时间 2026-04-16 05:15
修复流式会话中推测解码超限导致KV缓存错误的bug。
值得精读,特别是`_trim_overshoot`和`_free_kv_aligned`的设计,展示了如何处理页面对齐释放和状态修剪,对理解流式会话缓存管理有参考价值。
作者 hnyls2002 · 合并时间 2026-04-15 16:44
修复流式会话KV内存泄漏,统一尾部释放逻辑并移除重复处理。
该PR值得精读,特别是`_free_tail`的设计决策如何统一处理多种泄漏场景,以及页面对齐的重要性。关注match_prefix中前缀长度计算和断言,理解流式会话的只追加属性如何被强制执行。
作者 huangtingwei9988 · 合并时间 2026-04-15 16:31
修复 HiCache 在共享索引时内存释放逻辑错误,避免内存泄漏。
该 PR 值得精读,因为它揭示了 HiCache 内存池中共享索引模式下的一个关键设计决策:当索引与锚点共享时,释放操作应仅作用于锚点池,避免重复释放导致状态不一致。关注 `free` 方法的简化如何纠正了原实现中的逻辑错误。
作者 hnyls2002 · 合并时间 2026-04-15 15:13
重构流式会话中止处理,集中化清理逻辑并添加并发控制,修复内存泄漏和状态损坏。
建议工程师精读 `session_controller.py` 和 `session_aware_cache.py`,重点关注 `finish_req` 和 `abort_req` 的设计如何解耦令牌历史和KV状态,以及 `match_prefix` 中会话分离的逻辑。这些决策对于理解流式会话的健壮性改进至关重要。
作者 hnyls2002 · 合并时间 2026-04-15 04:11
修复流式会话内存统计双计数问题,改用运行时计算活动池索引。
该PR值得精读,尤其是对于关注流式会话内存管理和调度器设计的工程师。重点关注从状态标志到运行时计算的架构转变,这种“单一事实来源”的设计模式在分布式或并发系统中常被用于避免状态不一致。同时,注意作者如何通过提交历史逐步重构,体现了良好的代码演进习惯。