#7213 [Optimization] Use triton qk_norm both in Prefill and Decode.
作者 K11OntheBoat · 合并时间 2026-04-10 15:44
移除QKRMSNorm算子对CUDA Graph的条件限制,使其在Prefill和Decode阶段均启用Triton融合优化。
该PR值得精读,重点关注: 1. 设计决策:移除step_use_cudagraph条件以扩展Triton融合算子的使用场景,体现了性能优化与条件简化的权衡。 2. 风险点:需关注大batch下的精度验证是否充分,以及历史限制原因是否已解决。 3. 建议:结合review讨论,后续可考虑补充Prefill阶段大batch的精度测试,并澄清历史背景。
参与讨论