修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
标签列表
聚合结果
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-06 14:30
清理 trtllm_mla backend 中冗余的 init_mha_chunk_metadata 方法
可直接合并,改动清晰、风险低。但建议作者简单说明为何原冗余定义中参数不一致,以便他人理解历史背景。
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-06-06 13:26
修复 DSA 配置覆盖问题并支持 index_skip_topk_offset
本 PR 值得精读,特别是对 DSA 注意力机制、推测解码顶层索引管理、以及大规模模型服务配置兼容性感兴趣的开发者。关键设计决策包括:如何安全地跨 MTP 步骤重用 topk 索引、skip_topk 门控的精确语义、以及 TBO 与索引共享的不兼容性处理。建议在部署启用 index_topk_sharing 的模型时关注此变更。
优化 LingBot 实时 SP 缓存路径与 USP 通信
值得精读。该 PR 展示了如何通过细粒度的缓存复用和通信路径选择来优化实时推理管线的关键瓶颈,设计决策清晰,性能收益量化充分。建议关注 GPT reviewer 提出的进一步优化建议。
融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍
此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师