Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 18:11 同步状态:空闲 下次计划:2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-04-13
文档 重要性 3.00 洞察度 4.00

为NPU硬件新增RLOO优势估计器训练示例脚本,并合并到现有GPU脚本中。

该PR值得NPU用户或需要参考RLOO配置的工程师浏览,重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者,可关注团队如何通过review优化硬件兼容性和验证频率,体现了对用户体验的考量。

#5935 [ci] chore: Add veomni npu ci test

作者 wangshuyang31 · 合并时间 2026-04-13 15:58

基础设施 重要性 4.00 洞察度 4.00

新增veomni NPU PPO训练器的端到端CI测试工作流。

该PR值得关心CI基础设施或NPU兼容性的工程师精读,特别是设备检测和配置自适应设计。关注 `run_ppo_trainer_veomni.sh` 中如何通过条件分支处理不同硬件,这是一个可复用的模式。

缺陷修复 重要性 4.00 洞察度 4.00

修复TRT-LLM rollout中engine_kwargs覆盖KvCacheConfig导致配置丢失的问题。

该PR值得精读,特别是关注配置合并的设计决策。虽然变更简单,但展示了在多层配置传递中避免覆盖的关键技巧。建议关注gemini-code-assist[bot]提出的重复键和null值处理问题,这可能在类似场景中普遍存在。

缺陷修复 重要性 4.00 洞察度 3.00

修复fully_async训练中streaming_generation异常时monitor_task无法停止的问题。

该PR值得快速浏览以了解fully_async训练模式的异常处理机制。虽然变更简单,但展示了在异步训练中正确处理异常的重要性。关注点:finally块的使用确保了资源清理,这是异步编程中的良好实践。

2026-04-10
缺陷修复 重要性 5.00 洞察度 5.00

修复Megatron MTP损失在上下文并行(CP>1)时的死锁问题。

该PR值得精读,尤其是对于使用Megatron进行分布式训练的工程师。关注点在于:1. 死锁根因分析(CP rank参与all_reduce的必要性)。2. 设计权衡:通过分离参与all_reduce和写入指标的逻辑,既解决死锁又保持指标一致性。3. review中关于防御性编程的讨论,展示了实际工程中条件判断的边界考量。

#5401 [trainer] feat: add new trainer with TranferQueue

作者 wuxibin89 · 合并时间 2026-04-10 12:15

功能 重要性 7.00 洞察度 6.00

新增同步PPO训练器,通过TransferQueue解耦数据流以提升大规模训练性能。

该PR值得精读,特别是新训练器架构和TransferQueue集成设计。关注点包括:控制流与数据流解耦的实现、KVBatchMeta的使用、tqbridge装饰器的工作机制。建议工程师学习其性能优化技巧,但需注意review中提出的未解决问题。

参与讨论