Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 19:13 同步状态:空闲 下次计划:2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-03-26
功能 重要性 6.00 洞察度 6.00

为 Megatron 模块添加检查点保存为 Hugging Face PEFT 格式的功能。

建议阅读 megatron_checkpoint_manager.py 和 megatron_utils.py 中的修改,关注如何处理 PEFT 状态字典、私有 API 使用以及向后兼容性设计。设计决策值得学习,尤其是向标准 API 迁移的策略和风险管理。

缺陷修复 重要性 6.00 洞察度 4.00

修复FSDP训练中动态批处理导致的CUDA死锁,通过传递dp_group参数确保micro-batch计数同步。

该PR值得精读以理解FSDP同步机制和动态批处理的实现细节。关键设计决策是使用WORLD作为dp_group确保所有rank同步,工程师可以学习如何避免分布式训练中的死锁问题。

功能 重要性 7.00 洞察度 6.00

添加图像奖励支持,用于 FlowGRPO 训练,扩展奖励系统以处理视觉输入。

推荐技术管理者和工程师精读此 PR,关注 VisualRewardManager 的设计和奖励循环的多模态扩展。值得注意的设计决策包括奖励管理器基类的扩展、异步处理实现、以及通过配置驱动的奖励函数选择,这些对于理解仓库架构演进有重要价值。

缺陷修复 重要性 4.00 洞察度 3.00

修复 MultiTurnSFTDataset 中 NumPy 类型导致 Jinja2 模板渲染错误的问题。

对于处理类似数据流水线或 pandas/NumPy 类型转换的工程师,此 PR 值得快速浏览,以了解如何预防 Jinja2 渲染错误。但变更较为简单,核心洞察在于数据源类型处理的重要性,无需深入精读。

#5728 [trtllm, rollout] fix: partial loading logic

作者 hchings · 合并时间 2026-03-26 11:53

缺陷修复 重要性 5.00 洞察度 4.00

修复 TRTLLM rollout 非 VLM 模型部分加载逻辑,从禁用改为启用。

建议相关工程师阅读此 PR,以理解 TRTLLM rollout 部分加载逻辑的修正,特别是涉及异步处理的设计决策,有助于在类似场景中避免错误。

功能 重要性 6.00 洞察度 7.00

添加教师模型colocate模式,支持在rollout后计算教师logprobs。

建议技术管理者和工程师精读此PR,特别关注教师logprobs计算路径的设计决策,如stream_teacher_with_rollout标志的使用和批处理实现。同时,检查review中指出的bug是否已在提交历史中妥善解决,并评估测试覆盖是否充分。

功能 重要性 7.00 洞察度 5.00

废弃legacy FSDP和Megatron workers,默认启用新engine workers实现。

建议工程师精读此PR,以理解legacy workers的弃用策略和新engine workers的设计。重点关注`verl/trainer/main_ppo.py`中的动态导入逻辑,以及`verl/workers/engine/`目录下对value模型的支持增强,这些是架构迁移的关键决策点。同时注意review中未解决的deprecated消息问题,可在未来PR中修复。

参与讨论