#21104 perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks
作者 zminglei · 合并时间 2026-04-11 04:57
预计算 FA3 scheduler_metadata 以消除每层 prepare_varlen_num_blocks 内核调用,提升解码吞吐量约 2%。
建议精读此 PR,重点关注 _compute_scheduler_metadata 方法的实现和 CUDA 图路径中的逻辑,以及 review 中讨论的滑动窗口注意力处理不一致问题。设计决策展示了性能优化与向后兼容的权衡,适合学习内核调用减少的技巧。
参与讨论