#6046 [fully_async] fix: preserve per-iteration routed_experts on partial rollout resume
作者 NoonePauseferg · 合并时间 2026-04-17 22:01
修复完全异步训练中部分rollout恢复时routed_experts拼接错误,确保路由专家与生成模型版本一致。
该PR值得精读,特别是对于从事异步训练和MoE模型开发的工程师。关注点包括:1) 如何在部分rollout中处理模型版本差异;2) 路由专家拼接的设计决策(切片而非替换);3) review中关于张量类型的讨论,展示了实际环境中数据类型的保证。