#19228 [AMD] optimize Kimi K2.5 fused_moe_triton performance by tuning
原始 PR · 作者 ZiguanWang · 合并时间 2026-02-27 03:50
性能优化
重要性 6.00
洞察度 5.00
通过调优 fused_moe_triton 内核并添加 int4_w4a16 支持,显著提升 Kimi K2.5 模型在 AMD 硬件上的性能。
建议工程师精读此 PR,特别是关注 int4_w4a16 量化支持的具体实现(如权重初始化和尺度计算)和调优配置的选取策略,这对高性能计算和量化优化有参考价值。
参与讨论