Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

kv-cache 相关 PR

2026-06-07
性能优化 重要性 6.80 洞察度 6.00

指数搜索优化 RadixCache.match 减少逐元素比较

值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。

重构 重要性 7.95 洞察度 5.00

统一 spec decode KV 分配预留计算并移动 helper

建议精读,因为展示了如何通过集中化计算消除重复逻辑并解决导入循环,是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。

功能 重要性 7.95 洞察度 6.00

扩展EAGLE spec v2树推理支持page>1+topk>1

建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。

2026-06-06

#27426 Fix flaky test_self_e2e_pd_perturb

原始 PR · 作者 fzyzcjy · 合并时间 2026-06-06 19:31

缺陷修复 重要性 5.10 洞察度 7.00

修复KV校验测试因Radix缓存去重导致的flaky问题

值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。

测试 重要性 6.98 洞察度 3.00

为 scripted runtime 添加 KV 池和锁引用耗尽原语

测试团队推荐精读这两个 Exhauster 的实现,后续 chunked-prefill 测试将依赖它们。也可作为如何在 scripted 测试中模拟系统状态的参考模式。

测试 重要性 7.00 洞察度 3.00

为 kv_canary 添加 PP 自测夹具和 SWA divergence 测试

值得关注 `CanaryPPFixture` 基类的设计,它为 PP 测试提供了可复用的服务器参数配置和生命周期管理,为后续更多 PP 场景测试提供了模式参考。建议读者精读新增的扰动测试用例,了解 real-kv-hash 扰动的触发条件与断言方法。

2026-06-05
缺陷修复 重要性 6.80 洞察度 6.00

启用 spec topk>1 的 busy 内存检查

建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。