#27191 Fix DeepSeek V4 DP reduce scatter when use attention DP + MoE TP
原始 PR · 作者 yueming-yuan · 合并时间 2026-06-07 09:24
修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题
该 PR 值得精读,以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。
参与讨论