将 KV-canary 集成到 EAGLE 推测解码 draft 路径
值得阅读,特别是 CanaryManager 如何通过多个 SingleForwardManager 支持内部分步,以及如何在 EAGLE worker 的各个 forward 入口插入非侵入式 canary 钩子。该设计模式可复用于其他推测解码算法。
SGLang is a high-performance serving framework for large language models and multimodal models.
将 KV-canary 集成到 EAGLE 推测解码 draft 路径
值得阅读,特别是 CanaryManager 如何通过多个 SingleForwardManager 支持内部分步,以及如何在 EAGLE worker 的各个 forward 入口插入非侵入式 canary 钩子。该设计模式可复用于其他推测解码算法。
为 KV-canary 添加定期全 radix 树扫描
本 PR 设计清晰,模块划分合理,单元测试覆盖全面,推荐详细了解 radix 树遍历和 SWA 索引映射的实现细节,这些设计模式在类似的可观测性模块中有借鉴意义。建议在合并后关注 long-running 场景下的性能表现。
添加 KV-canary mock 模型端到端测试框架
值得精读,尤其是 `utils.py` 中的 `run_mock_model_bench_serving` 和 `perturb_e2e_base.py` 中的 `MockModelPerturbE2EBase`,它们定义了 KV-canary 测试的标准模式。对于要编写新 KV-canary 测试的开发者是必读材料。
扩展KV-canary支持SWA和DeepSeek-V4 KV池
建议在合并前处理导入兼容性问题(使用try-except包装DeepSeekV4TokenToKVPool的导入)并修复拼写错误。该PR的适配器模式设计清晰,值得后续扩展时参考。
引入 kv-canary 安装 API 并接入模型前向路径
该 PR 是 kv-canary 功能线的地基,值得计划使用 KV 缓存监控的团队精读。设计上采用 monkey-patch 与上下文管理器组合,展示了在现有执行流中非侵入式嵌入验证逻辑的模式。Review 中的防御性编程建议可在后续迭代中参考采纳。
添加KV-canary核心:数据层、KV池修补器和前向运行器
此 PR 是 KV-canary 系列的基础,建议精读理解设计模式:状态管理、池修补、前向钩子集成。关注 **assert 替换为 Exception** 的讨论,这是生产代码的重要稳健性考量。
新增 KV-canary plan JIT 内核,编排 write/verify 计划
尽管 PR 已合并,但 Review 中提出的 CUDA Graph 内存损坏和输入验证问题尚未解决,建议后续提交及时修复。API 层增加边界检查和缓存机制(如类级持久化 scratch buffer 和 dummy LUT)将提升鲁棒性。对于阅读此 PR 的开发者,`offsets_kernel.py` 中 Triton 内核的块级 cumsum 实现和 SWA LUT 翻译逻辑值得学习。
新增 KV-canary 写 JIT 内核与参考实现
建议精读 `write.py` 的 WritePlan 数据结构和 `launch_canary_write_kernel` 的接口设计,注意其对 SWA 的预处理假设(主机端翻译);CUDA kernel `canary_write.cuh` 展示了 chain hash 的高效 GPU 实现;测试套件的 invariant 模式值得借鉴。但需关注 review 中未解决的边界检查问题,建议后续 PR 补充。
参与讨论