2026-06-06
用 torch.stack 替换 torch.tensor 避免 GPU 同步
值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
新增 ngram decode 专用快速更新 kernel
值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。