← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

algo 相关 PR

2026-04-17

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器，支持图像生成强化学习。

trainer diffusion rollout experimental algo

该PR值得精读，特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括：(1) 扩散模型如何适配VERL的`DataProto`和训练框架；(2) 针对时间步的掩码和指标计算与语言模型处理的差异；(3) 审阅中关于优势计算标准差的未决争议，这反映了算法实现与原始论文的权衡。

查看完整分析 GitHub 原始 PR

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎，支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR，重点关注：1. DiffusersFSDPEngine的设计模式，特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策，如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

查看完整分析 GitHub 原始 PR

2026-03-24

#5722 [algo] feat: Implement IcePop in rollout correction

作者 HollowMan6 · 合并时间 2026-03-24 20:49

功能重要性 6.00 洞察度 6.00

在 rollout correction 中实现 IcePop 算法，通过重用阈值字段支持范围截断。

algo config

建议技术管理者和工程师精读此 PR，重点关注 IcePop 算法实现细节（如 `_parse_rollout_is_threshold` 解析逻辑）和配置扩展设计（重用字段避免 breaking change），这些决策展示了兼容性权衡和模块化设计，值得借鉴于类似功能添加场景。

查看完整分析 GitHub 原始 PR

2026-03-23

#5698 [one_step_off] fix: fix one-step-off update weights before rollout finished

作者 wucong25 · 合并时间 2026-03-23 10:45

缺陷修复重要性 5.00 洞察度 5.00

修复one-step-off算法中权重更新时机错误导致推理中断的bug。

trainer algo misc

对于使用one-step-off算法的开发者，建议精读此PR以理解权重同步的正确时机。关注设计决策：将权重更新从`fit_step`移到`_fit_generate`以确保顺序执行，避免竞态条件，这在异步训练场景中具有参考价值。

查看完整分析 GitHub 原始 PR

2026-03-21

#5616 [1/n][vllm, rollout] feat: flowgrpo - support vllm-omni as rollout backend for verl

作者 knlnguyen1802 · 合并时间 2026-03-21 08:51

功能重要性 8.00 洞察度 7.00

添加 vLLM-Omni 作为 rollout 后端，支持扩散模型在 verl 强化学习管道中运行。

vllm rollout model algo

该 PR 值得精读，尤其关注以下设计决策：基类提取如何提升代码复用性、LoRA 权重同步的补丁机制、以及扩散模型配置的统一方式。建议关注 log-prob 计算的设计选择及其对算法的影响，同时注意自定义管道的放置策略对未来维护的意义。

查看完整分析 GitHub 原始 PR