修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
标签列表
聚合结果
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
统一 spec decode KV 分配预留计算并移动 helper
建议精读,因为展示了如何通过集中化计算消除重复逻辑并解决导入循环,是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。
扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-06 20:12
修复 Eagle 采样信息 deepcopy 导入错误
此 PR 改动较小,但修复了一个运行时异常,建议尽快合并。开发者可了解 import 方式对命名空间的影响。
注册 #27338 到 pr_fix_toggle 逆向开关
该 PR 变更简单明了,建议合并。对于关注 EAGLE speculative decoding 和 CUDA graph 稳定性的开发者,可了解该 revert 机制及其对应 PR #27338 的修复内容。
修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-06-06 13:26
修复 DSA 配置覆盖问题并支持 index_skip_topk_offset
本 PR 值得精读,特别是对 DSA 注意力机制、推测解码顶层索引管理、以及大规模模型服务配置兼容性感兴趣的开发者。关键设计决策包括:如何安全地跨 MTP 步骤重用 topk 索引、skip_topk 门控的精确语义、以及 TBO 与索引共享的不兼容性处理。建议在部署启用 index_topk_sharing 的模型时关注此变更。
原始 PR · 作者 thanhhao98 · 合并时间 2026-06-06 07:08
修复 EAGLE3 draft num_nextn_predict_layers=0 时层数计算错误
建议尽快合入并发布补丁,该修复解决了 EAGLE3 的一个显式崩溃问题,且风险极低。同时建议在相关测试中增加 num_nextn_predict_layers=0 的边界测试用例。