#22424 [AMD] Use aiter CK layernorm2d for LayerNorm to reduce NSA indexer kernel launches
作者 1am9trash · 合并时间 2026-04-09 16:55
在AMD HIP平台上使用aiter CK layernorm2d内核替代torch实现,减少NSA索引器中的内核启动次数以提升性能。
建议AMD平台开发者精读此PR,重点关注forward_hip()中的条件判断逻辑和dtype处理策略。对于性能敏感项目,可以借鉴这种通过环境变量控制优化路径的设计。同时,注意测试覆盖的完整性,确保所有dtype和平台组合都被验证。
参与讨论