修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
标签列表
聚合结果
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-05 13:11
将 FlashMLA KV 索引构建并行化,长上下文延迟从 15us 降至 1-2us
值得精读 kernel 层面的并行化模式。此 PR 展示了如何通过简单的 grid 维度扩展将显式循环转换为 GPU 块级并行,是注意力后端性能优化的典型技巧。
修复混合MLA模型预填充崩溃,委托init_mha_chunk_metadata到全注意力后端
建议精读此 PR,特别是 `init_mha_chunk_metadata` 的委托设计。虽然修复简单,但揭示了后端接口不一致的隐患,值得在后续重构中统一。同时,可扩展测试覆盖到其他 MLA 后端(TRTLLM、CuteDSL),并在委托逻辑中增加参数适配。
原始 PR · 作者 rbrugaro-amd · 合并时间 2026-05-29 16:28
消除 MLA 注意力 MXFP4 路径冗余拷贝
建议合入。该 PR 是一个典型的零开销布局优化范例,通过改变分配顺序消除隐式拷贝,代码改动量小、收益明确、风险低。值得关注的是其利用 aiter 内核 stride 参数支持非连续输出的特性,可在类似场景复用。
更新 MooncakeStore 批处理测试以使用 v1 API
建议 MooncakeStore 相关开发者阅读,了解 v1 批处理 API 的正确用法和测试模式,可作为后续类似测试的参考。
支持 Kimi-K2.6 EAGLE3.1-MLA 草稿模型
值得精读,尤其是对 speculative decoding 和模型加载兼容性设计感兴趣的人。两个配置标志的默认值设计和遗留标志兼容做法值得学习。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-26 13:17
GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码
建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复;若未修复,应及时补充。此 PR 的独立模型设计思路值得参考,尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。
修复 DP 解码空闲批次 deadlock
值得精读,尤其关注分布式系统中“空闲批次”作为一等公民的设计思想。三行条件变更修复了一个多节点死锁问题,是分布式调度典型 corner case。