Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

diffusion 相关 PR

2026-04-17

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能 重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。

trainer diffusion rollout experimental algo

该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。

2026-04-14
其他 重要性 6.00 洞察度 5.00

升级vllm-omni至0.18.0官方版本,新增TP支持并同步上游代码模式。

ci vllm agent_loop diffusion

建议开发者精读此PR以了解vllm-omni 0.18.0的集成方式,特别是TP支持的测试策略和代码简化模式。关注_create_tp_compatible_model函数的设计,适用于处理模型配置不兼容的测试场景,以及如何通过上下文管理器优雅管理临时资源。

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能 重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

2026-03-30

#5716 [2/n][rollout] feat: flowgrpo - add diffusion agent loop support

作者 AndyZhou952 · 合并时间 2026-03-30 14:23

功能 重要性 7.00 洞察度 7.00

新增扩散代理循环支持,为FlowGRPO训练扩展图像/视频rollout能力。

rollout model trainer diffusion

建议技术管理者和工程师精读此PR,重点关注:1)扩散代理循环的设计如何与现有agent loop框架集成。2)tokenizer线程安全问题的解决策略,包括在asyncio线程中tokenize的权衡。3)配置文件继承结构,了解扩散rollout的配置扩展方式。这些决策对多模态支持有重要参考价值。