修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
标签列表
聚合结果
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-07 06:40
指数搜索优化 RadixCache.match 减少逐元素比较
值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。
统一 spec decode KV 分配预留计算并移动 helper
建议精读,因为展示了如何通过集中化计算消除重复逻辑并解决导入循环,是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。
扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
修复KV校验测试因Radix缓存去重导致的flaky问题
值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。
为 scripted runtime 添加 KV 池和锁引用耗尽原语
测试团队推荐精读这两个 Exhauster 的实现,后续 chunked-prefill 测试将依赖它们。也可作为如何在 scripted 测试中模拟系统状态的参考模式。
为 kv_canary 添加 PP 自测夹具和 SWA divergence 测试
值得关注 `CanaryPPFixture` 基类的设计,它为 PP 测试提供了可复用的服务器参数配置和生命周期管理,为后续更多 PP 场景测试提供了模式参考。建议读者精读新增的扰动测试用例,了解 real-kv-hash 扰动的触发条件与断言方法。
启用 spec topk>1 的 busy 内存检查
建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。