#7337 [RL]moe bf16 ep support paddle batch_gemm
作者 ckl117 · 合并时间 2026-04-11 21:51
为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持,对齐训练实现。
建议技术管理者和工程师精读此PR,重点关注: 1. **设计决策**:为何选择batched_gemm而非原有compute_ffn,以及如何权衡CUDAGraph兼容性。 2. **风险点**:down_proj_bias处理缺失和外部依赖函数可用性,需确认是否在后续提交中修复。 3. **测试补充**:建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试,确保新路径正确性。 PR展示了推理与训练对齐的典型模式,值得学习其实现思路。
参与讨论