#5951 [5/n][trainer] feat: flowgrpo trainer
作者 zhtmike · 合并时间 2026-04-17 12:11
新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。
该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。