#37833 [ROCm] Fix MoE kernel test failures on gfx950
作者 AndreasKaratzas · 合并时间 2026-03-26 02:46
修复ROCm gfx950平台Mixture of Experts内核测试失败,涉及API差异、数值稳定性和测试增强。
该PR值得精读,特别是ROCm平台MoE内核的实现细节和数值稳定性技巧。建议关注以下设计决策: - 平台特定回退机制(如C++内核保护)的优雅处理方式。 - FP8量化中乘法替换除法以避免边界误差的通用性。 - 测试中容差放松与诊断增强的平衡,可作为处理硬件差异的参考案例。 工程师可从中学习如何适配多平台API差异和优化数值鲁棒性。
参与讨论