Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

algo 相关 PR

2026-04-17

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能 重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。

trainer diffusion rollout experimental algo

该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能 重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

2026-03-24

#5722 [algo] feat: Implement IcePop in rollout correction

作者 HollowMan6 · 合并时间 2026-03-24 20:49

功能 重要性 6.00 洞察度 6.00

在 rollout correction 中实现 IcePop 算法,通过重用阈值字段支持范围截断。

algo config

建议技术管理者和工程师精读此 PR,重点关注 IcePop 算法实现细节(如 `_parse_rollout_is_threshold` 解析逻辑)和配置扩展设计(重用字段避免 breaking change),这些决策展示了兼容性权衡和模块化设计,值得借鉴于类似功能添加场景。

2026-03-23
缺陷修复 重要性 5.00 洞察度 5.00

修复one-step-off算法中权重更新时机错误导致推理中断的bug。

trainer algo misc

对于使用one-step-off算法的开发者,建议精读此PR以理解权重同步的正确时机。关注设计决策:将权重更新从`fit_step`移到`_fit_generate`以确保顺序执行,避免竞态条件,这在异步训练场景中具有参考价值。

2026-03-21
功能 重要性 8.00 洞察度 7.00

添加 vLLM-Omni 作为 rollout 后端,支持扩散模型在 verl 强化学习管道中运行。

vllm rollout model algo

该 PR 值得精读,尤其关注以下设计决策:基类提取如何提升代码复用性、LoRA 权重同步的补丁机制、以及扩散模型配置的统一方式。建议关注 log-prob 计算的设计选择及其对算法的影响,同时注意自定义管道的放置策略对未来维护的意义。