增加KV-canary周期性统计日志与健康检查
该PR设计清晰,纯观察者模式值得学习;DelayedDeviceHostHandler的异步D2H拷贝模式可复用于其他需要获取设备状态但不阻塞前向的场景。阅读重点:health_checker.py中的延迟出队和增量计算逻辑。
SGLang is a high-performance serving framework for large language models and multimodal models.
增加KV-canary周期性统计日志与健康检查
该PR设计清晰,纯观察者模式值得学习;DelayedDeviceHostHandler的异步D2H拷贝模式可复用于其他需要获取设备状态但不阻塞前向的场景。阅读重点:health_checker.py中的延迟出队和增量计算逻辑。
添加 SWA divergence reporter 用于 KV-canary 可观测性
值得精读,特别是: - `DelayedDeviceHostHandler` 在设备侧与主机侧异步协作的模式 - `SwaDivergenceLog` 的可解析日志格式设计 - 测试中 `assert_swa_divergence_observed` 的多信号断言策略 该 PR 展示了如何为关键内部组件添加轻量可观测性基础设施,代码结构清晰,适合作为同类功能的参考。
新增 KV-canary 扰动模式与 PD 拆分端到端测试
本 PR 值得精读,因为其扰动设计覆盖了 KV 缓存的三种典型损坏场景(活跃使用、缓存孤立、刚写入),展示了一种利用 stream ordering 保证时序的实现方法;同时 slot_picker 中排除 `out_cache_loc` 避免与首次写入竞争的考虑值得借鉴。
为 KV-canary 添加 token-id 验证能力
值得精读,尤其是 scatter kernel 的 tile 大小选择(平衡寄存器预算)以及 manager 如何与 forward batch 协同工作。对于需要调试 KV 缓存一致性的开发者,此功能提供了有价值的手段。
新增真实 KV 数据指纹验证到 KV-canary
建议深入阅读 `RealKvSource` 数据类及其工厂函数的设计,理解如何通过 `page_size` 和 `num_bytes_per_token` 适配不同 KV 缓存布局。该 PR 是 KV-canary 功能线的关键一环,对了解 SGLang 的缓存可观测性架构有参考价值。
引入 KV-canary 扰动框架用于故障注入自测试
该 PR 是 KV-canary 测试框架的重要基础,可精读以理解设计意图。重点关注 WarmupGate 和配置解析模式,未来扩展其他扰动类型时可以参考。
新增确定性 token oracle 与 write-input 断言
该 PR 设计清晰,分层合理,值得精读。特别是 Token Oracle 的确定性哈希选择、perturb 与断言分离的测试策略、以及通过环境变量精细控制功能启用的思路,可作为类似可观测性功能的参考模板。
添加请求ID哈希与bootstrap room int张量管道
建议阅读 `forward_batch_info.py` 中的哈希函数设计和 CUDA Graph 的集成方式。该设计展示了如何在现有框架中安全添加自定义张量并贯穿捕获/回放流程,值得作为模板。建议合并后立即补充测试,尤其是 CUDA Graph 的 replay 一致性测试。
参与讨论