Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 19:13 同步状态:空闲 下次计划:2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-03-23
功能 重要性 7.00 洞察度 6.00

为Megatron训练管道添加NVFP4 W4A16量化感知训练支持,并通过ModelOpt集成vLLM推理。

建议技术管理者和工程师精读此PR,特别关注`verl/utils/modelopt/`模块中的设计决策,如分布式权重导出器(`QATWeightExporter`)的实现和vLLM补丁机制。此外,review讨论中提到的代码重构点值得学习,以提升代码质量和可维护性。

性能优化 重要性 5.00 洞察度 5.00

为TrainingWorker添加NUMA亲和性设置,提升GPU训练性能6.1%。

建议技术管理者关注此PR以了解NUMA优化在分布式训练中的应用和硬件兼容性权衡;工程师可精读代码学习如何集成性能调优函数,但需注意NPU限制。

缺陷修复 重要性 7.00 洞察度 5.00

修复 Liger 内核集成以兼容视觉语言模型和强化学习训练,提升训练速度。

建议精读此 PR,关注 _apply_liger_kernel_to_instance 的参数传递设计决策,以及如何通过测试确保兼容性。对于涉及内核优化和模型集成的开发者,此 PR 提供了避免冲突的实用模式和性能基准参考。

缺陷修复 重要性 5.00 洞察度 3.00

将 `dist_ckpt_optim_fully_reshardable` 默认值设为 False,以避免检查点保存时的高 CPU 内存 OOM。

建议:此 PR 值得精读,特别是对于使用大模型训练的团队。重点阅读 `verl/trainer/config/engine/megatron.yaml` 的更改和文档中的警告部分,了解 fully reshardable 与 dp-reshardable 格式的权衡,以确保正确配置检查点策略。

缺陷修复 重要性 5.00 洞察度 5.00

修复one-step-off算法中权重更新时机错误导致推理中断的bug。

对于使用one-step-off算法的开发者,建议精读此PR以理解权重同步的正确时机。关注设计决策:将权重更新从`fit_step`移到`_fit_generate`以确保顺序执行,避免竞态条件,这在异步训练场景中具有参考价值。

#5701 [trtllm,rollout] fix hang issue from VLM codepath

作者 hchings · 合并时间 2026-03-23 10:12

缺陷修复 重要性 6.00 洞察度 5.00

修复trtllm多节点rollout中因VLM代码路径导致的hang问题。

该PR值得精读,特别是对于负责分布式训练和rollout的工程师,因为它展示了在数据并行(DP)场景中正确处理rank映射和广播机制的关键设计决策。关注flush函数中的VLM检测和dist.get_global_rank使用,以避免类似通信错误。

2026-03-21
功能 重要性 8.00 洞察度 7.00

添加 vLLM-Omni 作为 rollout 后端,支持扩散模型在 verl 强化学习管道中运行。

该 PR 值得精读,尤其关注以下设计决策:基类提取如何提升代码复用性、LoRA 权重同步的补丁机制、以及扩散模型配置的统一方式。建议关注 log-prob 计算的设计选择及其对算法的影响,同时注意自定义管道的放置策略对未来维护的意义。

参与讨论