#41825 [ROCm][Perf] Fix RMSNorm+Quant fusion for gfx950 (non-fnuz)
原始 PR · 作者 frida-andersson · 合并时间 2026-05-12 03:00
修复gfx950上RMSNorm+FP8融合,延迟降3.3%
值得精读该PR,尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路,以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策(重复rms_norm而非保留未融合的16位读取)也有借鉴意义。建议在撰写自定义编译pass时参考此模式。
参与讨论