← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

diffusion 相关 PR

2026-04-17

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器，支持图像生成强化学习。

trainer diffusion rollout experimental algo

该PR值得精读，特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括：(1) 扩散模型如何适配VERL的`DataProto`和训练框架；(2) 针对时间步的掩码和指标计算与语言模型处理的差异；(3) 审阅中关于优势计算标准差的未决争议，这反映了算法实现与原始论文的权衡。

查看完整分析 GitHub 原始 PR

2026-04-14

#5809 [ci, vllm] chore: update vllm-omni 0.18.0 official release and Miscellaneous

作者 AndyZhou952 · 合并时间 2026-04-14 14:05

其他重要性 6.00 洞察度 5.00

升级vllm-omni至0.18.0官方版本，新增TP支持并同步上游代码模式。

ci vllm agent_loop diffusion

建议开发者精读此PR以了解vllm-omni 0.18.0的集成方式，特别是TP支持的测试策略和代码简化模式。关注_create_tp_compatible_model函数的设计，适用于处理模型配置不兼容的测试场景，以及如何通过上下文管理器优雅管理临时资源。

查看完整分析 GitHub 原始 PR

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎，支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR，重点关注：1. DiffusersFSDPEngine的设计模式，特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策，如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

查看完整分析 GitHub 原始 PR

2026-03-30

#5716 [2/n][rollout] feat: flowgrpo - add diffusion agent loop support

作者 AndyZhou952 · 合并时间 2026-03-30 14:23

功能重要性 7.00 洞察度 7.00

新增扩散代理循环支持，为FlowGRPO训练扩展图像/视频rollout能力。

rollout model trainer diffusion

建议技术管理者和工程师精读此PR，重点关注：1）扩散代理循环的设计如何与现有agent loop框架集成。2）tokenizer线程安全问题的解决策略，包括在asyncio线程中tokenize的权衡。3）配置文件继承结构，了解扩散rollout的配置扩展方式。这些决策对多模态支持有重要参考价值。

查看完整分析 GitHub 原始 PR