← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 19:13 同步状态：空闲下次计划：2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#5575 [megatron] feat: checkpoint save as HF PEFT format

作者 HollowMan6 · 合并时间 2026-03-26 16:21

功能重要性 6.00 洞察度 6.00

为 Megatron 模块添加检查点保存为 Hugging Face PEFT 格式的功能。

建议阅读 megatron_checkpoint_manager.py 和 megatron_utils.py 中的修改，关注如何处理 PEFT 状态字典、私有 API 使用以及向后兼容性设计。设计决策值得学习，尤其是向标准 API 迁移的策略和风险管理。

查看完整分析 GitHub 原始 PR megatronckptlora

#5591 [fsdp] fix: pass dp_group to prepare_dynamic_batch to fix CUDA deadlock

作者 JenniferWang · 合并时间 2026-03-26 16:06

缺陷修复重要性 6.00 洞察度 4.00

修复FSDP训练中动态批处理导致的CUDA死锁，通过传递dp_group参数确保micro-batch计数同步。

该PR值得精读以理解FSDP同步机制和动态批处理的实现细节。关键设计决策是使用WORLD作为dp_group确保所有rank同步，工程师可以学习如何避免分布式训练中的死锁问题。

查看完整分析 GitHub 原始 PR fsdpworkermisc

#5758 [ci] chore: delete mirror for npu ci

作者 yyyy2000 · 合并时间 2026-03-26 15:57

基础设施重要性 2.00 洞察度 1.00

删除 NPU CI 流水线中的镜像配置步骤，简化工作流。

这是一个简单的配置清理 PR，不值得深入精读，但可关注团队在 CI 配置标准化和去镜像化方面的趋势，以了解基础设施演进。

查看完整分析 GitHub 原始 PR cinpumisc

#5713 [3/n][reward] feat: flowgrpo - support image-based rewards (rule-based & genrm)

作者 chenyingshu · 合并时间 2026-03-26 15:54

功能重要性 7.00 洞察度 6.00

添加图像奖励支持，用于 FlowGRPO 训练，扩展奖励系统以处理视觉输入。

推荐技术管理者和工程师精读此 PR，关注 VisualRewardManager 的设计和奖励循环的多模态扩展。值得注意的设计决策包括奖励管理器基类的扩展、异步处理实现、以及通过配置驱动的奖励函数选择，这些对于理解仓库架构演进有重要价值。

查看完整分析 GitHub 原始 PR rewardtrainermisc

#5743 [trainer] fix: convert numpy types to native Python types in MultiTurnSFTDataset

作者 khazic · 合并时间 2026-03-26 13:46

缺陷修复重要性 4.00 洞察度 3.00

修复 MultiTurnSFTDataset 中 NumPy 类型导致 Jinja2 模板渲染错误的问题。

对于处理类似数据流水线或 pandas/NumPy 类型转换的工程师，此 PR 值得快速浏览，以了解如何预防 Jinja2 渲染错误。但变更较为简单，核心洞察在于数据源类型处理的重要性，无需深入精读。

查看完整分析 GitHub 原始 PR trainermisc

#5728 [trtllm, rollout] fix: partial loading logic

作者 hchings · 合并时间 2026-03-26 11:53

缺陷修复重要性 5.00 洞察度 4.00

修复 TRTLLM rollout 非 VLM 模型部分加载逻辑，从禁用改为启用。

建议相关工程师阅读此 PR，以理解 TRTLLM rollout 部分加载逻辑的修正，特别是涉及异步处理的设计决策，有助于在类似场景中避免错误。

查看完整分析 GitHub 原始 PR rolloutworkermisc

#5745 [2/2][rollout,trainer] feat: Teacher colocate mode

作者 JacobHelwig · 合并时间 2026-03-26 11:52

功能重要性 6.00 洞察度 7.00

添加教师模型colocate模式，支持在rollout后计算教师logprobs。

建议技术管理者和工程师精读此PR，特别关注教师logprobs计算路径的设计决策，如stream_teacher_with_rollout标志的使用和批处理实现。同时，检查review中指出的bug是否已在提交历史中妥善解决，并评估测试覆盖是否充分。

查看完整分析 GitHub 原始 PR trainerrolloutteacher

#5604 [BREAKING][trainer] feat: deprecate legacy engine fsdp and megatron workers

作者 wuxibin89 · 合并时间 2026-03-26 11:40

功能重要性 7.00 洞察度 5.00

废弃legacy FSDP和Megatron workers，默认启用新engine workers实现。

建议工程师精读此PR，以理解legacy workers的弃用策略和新engine workers的设计。重点关注`verl/trainer/main_ppo.py`中的动态导入逻辑，以及`verl/workers/engine/`目录下对value模型的支持增强，这些是架构迁移的关键决策点。同时注意review中未解决的deprecated消息问题，可在未来PR中修复。

查看完整分析 GitHub 原始 PR trainerworkerfsdp

第 14 / 18 页 · 共 143 条

上一页 1 … 12 13 14 15 16 … 18 下一页

支持 Prhub ♥