← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 18:11 同步状态：空闲下次计划：2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选 · 已设定

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-17

#6046 [fully_async] fix: preserve per-iteration routed_experts on partial rollout resume

作者 NoonePauseferg · 合并时间 2026-04-17 22:01

缺陷修复重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误，确保路由专家与生成模型版本一致。

该PR值得精读，特别是对于从事异步训练和MoE模型开发的工程师。关注点包括：1) 如何在部分rollout中处理模型版本差异；2) 路由专家拼接的设计决策（切片而非替换）；3) review中关于张量类型的讨论，展示了实际环境中数据类型的保证。

查看完整分析 GitHub 原始 PR fully_asyncrolloutexperimental

#6041 [rollout] fix: RM sleep/wake teacher replicas

作者 JacobHelwig · 合并时间 2026-04-17 13:44

缺陷修复重要性 4.97 洞察度 3.00

移除教师模型管理器的休眠/唤醒逻辑，简化在线蒸馏流程。

该PR值得快速浏览，以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡，建议结合近期蒸馏相关PR（如#6039、#5997）理解整体演进方向。

查看完整分析 GitHub 原始 PR rolloutdistillationexperimental

#6039 [trainer, rollout, algo] refactor: Remove OPD colocate mode

作者 JacobHelwig · 合并时间 2026-04-17 13:12

重构重要性 8.91 洞察度 5.00

移除在线策略蒸馏的共置模式，强制使用独立资源池，简化教师模型管理逻辑。

该 PR 值得精读，尤其是对于涉及蒸馏和资源管理的开发者。关注点包括：教师模型管理器的简化设计、配置契约的变更，以及 review 中提到的序列化优化机会。

查看完整分析 GitHub 原始 PR trainerdistillationrollout

#5951 [5/n][trainer] feat: flowgrpo trainer

作者 zhtmike · 合并时间 2026-04-17 12:11

功能重要性 9.18 洞察度 6.00

新增基于Ray的FlowGRPO扩散模型训练器，支持图像生成强化学习。

该PR值得精读，特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括：(1) 扩散模型如何适配VERL的`DataProto`和训练框架；(2) 针对时间步的掩码和指标计算与语言模型处理的差异；(3) 审阅中关于优势计算标准差的未决争议，这反映了算法实现与原始论文的权衡。

查看完整分析 GitHub 原始 PR trainerdiffusionrollout

#6024 [trainer] fix: add missing rollout dump and corrected validation logging in main_ppo_sync

作者 guillemgt · 合并时间 2026-04-17 11:12

缺陷修复重要性 8.05 洞察度 5.00

修复同步PPO训练器验证阶段多输出会话指标计算错误和缺失的日志转储功能。

该PR值得精读，尤其是键过滤逻辑和`reward_extra_info`收集的修复，展示了处理多输出会话和动态字段的典型模式。关注`_validate()`中`session_max`字典的设计，以及如何确保列表长度一致性的方法（填充None）。

查看完整分析 GitHub 原始 PR trainerrolloutmisc

#5997 [trainer,algo] feat: Support On-Policy Distillation in `main_ppo_sync`

作者 0oshowero0 · 合并时间 2026-04-17 11:10

功能重要性 7.40 洞察度 6.00

在同步PPO训练器中新增基于资源池的在线策略蒸馏支持，打通教师模型与TQ数据流。

该PR值得精读，尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上，优先支持独立资源池模式而非共置模式，这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑，以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。

查看完整分析 GitHub 原始 PR trainerdistillationrollout

#6034 [veomni] fix: use local paths for VeOmni model loading

作者 Luosuu · 合并时间 2026-04-17 10:43

缺陷修复重要性 5.08 洞察度 3.00

修复VeOmni FSDP引擎加载模型时使用本地路径而非远程路径的问题。

该PR值得快速浏览，重点关注路径解析逻辑的调整，以理解VeOmni引擎在缓存环境下的模型加载机制。对于涉及远程模型存储的开发者，此设计决策展示了如何优雅处理本地与远程路径的切换。

查看完整分析 GitHub 原始 PR veomnitrainermisc

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

该PR值得精读，它揭示了在异步训练中处理路由专家数据时的关键设计决策：直接替换而非拼接，以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论，以及实验结果的权衡。