#21387 [Diffusion] Optimize diffusion Triton rotary embedding by processing multiple heads per token
作者 BBuf · 合并时间 2026-03-26 08:59
优化扩散模型Triton rotary embedding内核,通过一次处理多个注意力头提升性能。
建议开发人员精读此PR,关注内核重构的设计决策(如二维启动布局和多头掩码处理),并注意讨论中提到的autotune配置覆盖问题,考虑在后续PR中补充更大 `BLOCK_HS_HALF` 值以优化性能。
参与讨论