Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

kv-cache 相关 PR

2026-04-18

#21509 [MLX] Support radix cache

作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能 重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。

feature mlx performance kv-cache run-ci

该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。

2026-04-16

#22651 streaming session: spec v2 bonus accounting + comprehensive test matrix

作者 hnyls2002 · 合并时间 2026-04-16 08:12

缺陷修复 重要性 7.96 洞察度 5.00

修复 spec v2 流式会话奖励槽会计问题,移除兼容性门并添加全面测试矩阵。

bugfix consistency kv-cache run-ci

建议精读核心源码修改(特别是 `eagle_info_v2.py` 和 `scheduler_output_processor_mixin.py`),关注奖励槽会计的时序调整设计;同时浏览测试文件以理解覆盖范围,这对维护流式会话模块至关重要。

#22900 trim_overshoot: cap swa_evicted_seqlen + unit test

作者 hnyls2002 · 合并时间 2026-04-16 06:05

缺陷修复 重要性 5.41 洞察度 5.00

修复流式会话中Spec V2解码超限时SWA(滑动窗口注意力)内存泄漏问题。

bugfix consistency kv-cache run-ci

该PR值得精读,尤其是关注 `_trim_overshoot` 和 `_free_tail` 方法如何协同维护KV和SWA状态的一致性。设计决策体现了对称性修复的重要性,对于处理流式会话中的内存管理有借鉴意义。

2026-04-15

#22862 Streaming session: fix retract tail leak via _free_tail

作者 hnyls2002 · 合并时间 2026-04-15 16:44

缺陷修复 重要性 7.02 洞察度 5.00

修复流式会话KV内存泄漏,统一尾部释放逻辑并移除重复处理。

bugfix consistency scheduling run-ci kv-cache

该PR值得精读,特别是`_free_tail`的设计决策如何统一处理多种泄漏场景,以及页面对齐的重要性。关注match_prefix中前缀长度计算和断言,理解流式会话的只追加属性如何被强制执行。

#22767 [HiCache] Fix memory host free logic when share_indices_with_anchor enabled

作者 huangtingwei9988 · 合并时间 2026-04-15 16:31

缺陷修复 重要性 5.29 洞察度 4.00

修复 HiCache 在共享索引时内存释放逻辑错误,避免内存泄漏。

bugfix hicache run-ci consistency kv-cache

该 PR 值得精读,因为它揭示了 HiCache 内存池中共享索引模式下的一个关键设计决策:当索引与锚点共享时,释放操作应仅作用于锚点池,避免重复释放导致状态不一致。关注 `free` 方法的简化如何纠正了原实现中的逻辑错误。

#22790 Refactor streaming session abort handling

作者 hnyls2002 · 合并时间 2026-04-15 15:13

重构 重要性 8.22 洞察度 6.00

重构流式会话中止处理,集中化清理逻辑并添加并发控制,修复内存泄漏和状态损坏。

refactor consistency scheduling kv-cache

建议工程师精读 `session_controller.py` 和 `session_aware_cache.py`,重点关注 `finish_req` 和 `abort_req` 的设计如何解耦令牌历史和KV状态,以及 `match_prefix` 中会话分离的逻辑。这些决策对于理解流式会话的健壮性改进至关重要。

#22753 Fix streaming session busy-check double-counting via active_pool_idxs

作者 hnyls2002 · 合并时间 2026-04-15 04:11

缺陷修复 重要性 7.74 洞察度 5.00

修复流式会话内存统计双计数问题,改用运行时计算活动池索引。

bugfix consistency scheduling kv-cache

该PR值得精读,尤其是对于关注流式会话内存管理和调度器设计的工程师。重点关注从状态标志到运行时计算的架构转变,这种“单一事实来源”的设计模式在分布式或并发系统中常被用于避免状态不一致。同时,注意作者如何通过提交历史逐步重构,体现了良好的代码演进习惯。