修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
标签列表
聚合结果
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
原始 PR · 作者 merrymercy · 合并时间 2026-06-07 01:19
结构化多模态错误响应与客户端断开处理
值得精读,展示了如何通过异常分层与请求状态检查来提升 API 的健壮性和客户端体验。
修复 LingBot-World 相机控制崩溃
值得合并。这是一个短小、精确的 bugfix,修复了阻断性崩溃,且改动量小、风险可控。建议后续补充多 GPU 实时测试。
用 torch.stack 替换 torch.tensor 避免 GPU 同步
值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。
新增 torch_npu 补丁 API 兼容层并更新调用方
建议 NPU 相关开发者阅读,该 PR 展示了如何平滑处理上游库的 API 漂移,并提供了可复用的兼容函数。单元测试覆盖了三种场景,值得参考。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-06 20:12
修复 Eagle 采样信息 deepcopy 导入错误
此 PR 改动较小,但修复了一个运行时异常,建议尽快合并。开发者可了解 import 方式对命名空间的影响。
修复KV校验测试因Radix缓存去重导致的flaky问题
值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。