Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

rollout 相关 PR

2026-04-17
缺陷修复 重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误,确保路由专家与生成模型版本一致。

fully_async rollout experimental megatron

该PR值得精读,特别是对于从事异步训练和MoE模型开发的工程师。关注点包括:1) 如何在部分rollout中处理模型版本差异;2) 路由专家拼接的设计决策(切片而非替换);3) review中关于张量类型的讨论,展示了实际环境中数据类型的保证。

#6041 [rollout] fix: RM sleep/wake teacher replicas

作者 JacobHelwig · 合并时间 2026-04-17 13:44

缺陷修复 重要性 4.97 洞察度 3.00

移除教师模型管理器的休眠/唤醒逻辑,简化在线蒸馏流程。

rollout distillation experimental

该PR值得快速浏览,以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡,建议结合近期蒸馏相关PR(如#6039、#5997)理解整体演进方向。

#6039 [trainer, rollout, algo] refactor: Remove OPD colocate mode

作者 JacobHelwig · 合并时间 2026-04-17 13:12

重构 重要性 8.91 洞察度 5.00

移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。

trainer distillation rollout experimental

该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能 重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。

trainer diffusion rollout experimental algo

该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。

缺陷修复 重要性 8.05 洞察度 5.00

修复同步PPO训练器验证阶段多输出会话指标计算错误和缺失的日志转储功能。

trainer rollout misc

该PR值得精读,尤其是键过滤逻辑和`reward_extra_info`收集的修复,展示了处理多输出会话和动态字段的典型模式。关注`_validate()`中`session_max`字典的设计,以及如何确保列表长度一致性的方法(填充None)。

#5997 [trainer,algo] feat: Support On-Policy Distillation in `main_ppo_sync`

作者 0oshowero0 · 合并时间 2026-04-17 11:10

功能 重要性 7.40 洞察度 6.00

在同步PPO训练器中新增基于资源池的在线策略蒸馏支持,打通教师模型与TQ数据流。

trainer distillation rollout experimental

该PR值得精读,尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上,优先支持独立资源池模式而非共置模式,这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑,以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复 重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

fully_async rollout experimental megatron

该PR值得精读,它揭示了在异步训练中处理路由专家数据时的关键设计决策:直接替换而非拼接,以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论,以及实验结果的权衡。

2026-04-16

#5969 [data, trainer] fix: batch padding for multi-trajectory

作者 ZhentaoFan · 合并时间 2026-04-16 23:26

缺陷修复 重要性 8.43 洞察度 6.00

修复多轨迹训练中批次样本数不满足数据并行和PPO小批次可除性导致的错误。

data trainer rollout misc

该PR值得精读,特别是`padding_utils.py`中的设计决策:如何构造最小填充样本、处理多维位置ID和专家路由、以及通过`is_padding`标签隔离指标计算。这些设计对于理解分布式训练中的数据对齐和性能权衡有重要参考价值。同时,应关注review中提到的性能瓶颈和边缘情况,在实际部署中监控I/O开销和指标准确性。