Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 18:11 同步状态:空闲 下次计划:2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143
更多筛选 · 已设定
✕ 清空
2026-04-17
缺陷修复 重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误,确保路由专家与生成模型版本一致。

该PR值得精读,特别是对于从事异步训练和MoE模型开发的工程师。关注点包括:1) 如何在部分rollout中处理模型版本差异;2) 路由专家拼接的设计决策(切片而非替换);3) review中关于张量类型的讨论,展示了实际环境中数据类型的保证。

#6041 [rollout] fix: RM sleep/wake teacher replicas

作者 JacobHelwig · 合并时间 2026-04-17 13:44

缺陷修复 重要性 4.97 洞察度 3.00

移除教师模型管理器的休眠/唤醒逻辑,简化在线蒸馏流程。

该PR值得快速浏览,以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡,建议结合近期蒸馏相关PR(如#6039、#5997)理解整体演进方向。

重构 重要性 8.91 洞察度 5.00

移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。

该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能 重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。

该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。

缺陷修复 重要性 8.05 洞察度 5.00

修复同步PPO训练器验证阶段多输出会话指标计算错误和缺失的日志转储功能。

该PR值得精读,尤其是键过滤逻辑和`reward_extra_info`收集的修复,展示了处理多输出会话和动态字段的典型模式。关注`_validate()`中`session_max`字典的设计,以及如何确保列表长度一致性的方法(填充None)。

功能 重要性 7.40 洞察度 6.00

在同步PPO训练器中新增基于资源池的在线策略蒸馏支持,打通教师模型与TQ数据流。

该PR值得精读,尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上,优先支持独立资源池模式而非共置模式,这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑,以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。

缺陷修复 重要性 5.08 洞察度 3.00

修复VeOmni FSDP引擎加载模型时使用本地路径而非远程路径的问题。

该PR值得快速浏览,重点关注路径解析逻辑的调整,以理解VeOmni引擎在缓存环境下的模型加载机制。对于涉及远程模型存储的开发者,此设计决策展示了如何优雅处理本地与远程路径的切换。

缺陷修复 重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

该PR值得精读,它揭示了在异步训练中处理路由专家数据时的关键设计决策:直接替换而非拼接,以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论,以及实验结果的权衡。

参与讨论