#21986 [AMD] Simplify fused allreduce + RMSNorm and remove hidden_dim allowlist
作者 hubertlu-tw · 合并时间 2026-04-12 14:47
修复AMD平台融合allreduce阈值并移除hidden_dim白名单,简化维护。
该PR值得精读,特别是parallel_state.py中移除白名单的设计决策,展示了如何将策略下放至底层内核以简化上层逻辑;同时,测试文件中的残差精度检查函数是验证数值正确性的良好范例,有助于理解融合allreduce的准确性保障。
参与讨论