#43667 [Perf][KDA] Fuse gate softplus, chunk-local cumsum, and RCP_LN2 scaling
原始 PR · 作者 zexplorerhj · 合并时间 2026-05-28 21:47
融合KDA门控、cumsum和RCP_LN2缩放为单Triton内核
该PR展示了如何通过融合连续小内核来优化注意力算子,设计决策(保留FLA风格的exp2约定、复用chunk_indices)值得借鉴。对于关注KDA或一般注意力性能的工程师,推荐精读`kda_gate_cumsum_fwd_kernel`的实现和模型层的集成方式。
参与讨论