Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 21:19 同步状态:空闲 下次计划:2026-04-18 22:19

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-04-07
2026-04-03
功能 重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。

建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

缺陷修复 重要性 3.00 洞察度 2.00

修复calculate_debug_metrics在response_mask全为False时的运行时错误。

该PR值得快速浏览,但无需深入精读。关注点在于:1)防御性编程模式:通过早期返回处理无效输入。2)NaN作为无效指标的标准处理方式。对于涉及调试指标或极端采样场景的开发者,了解此修复可避免类似崩溃。

#5870 [megatron] fix: support critic model

作者 wuxibin89 · 合并时间 2026-04-03 22:07

缺陷修复 重要性 6.00 洞察度 6.00

修复 Megatron critic 模型配置和训练问题,统一配置到 HFModelConfig。

建议技术管理者和工程师精读此 PR,重点关注:配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户,应检查并更新现有脚本以避免配置不兼容。

#5186 [tool] feat: verl integrate msprobe data collection

作者 Tjh-UKN · 合并时间 2026-04-03 16:55

功能 重要性 7.00 洞察度 6.00

集成msprobe精度调试工具到VERL统一性能分析系统,支持Ascend训练侧数据收集。

建议技术管理者和工程师精读此PR,重点关注其如何将外部工具集成到统一分析器框架的设计决策,特别是阶段映射、模型解析和开销管理。值得关注`PrecisionDebuggerProfiler`类的实现和配置统一化方式,可作为类似集成的参考模板。

功能 重要性 5.00 洞察度 5.00

新增 Qwen3.5-122B Megatron 启动脚本,支持 32 GPU 大规模 GRPO 训练。

该 PR 对于需要运行 Qwen3.5-122B 或类似大规模模型的工程师值得参考,特别是关注 Megatron 并行配置(如 TP、PP、CP 设置)和模型特定限制(如 GDN 注意力格式)。建议精读脚本中的配置注释,以了解架构权衡和未来优化方向。

#5861 [doc] feat: add NVFP4 QAT documentation

作者 zhangyimi · 合并时间 2026-04-03 14:10

文档 重要性 3.00 洞察度 2.00

新增NVFP4量化感知训练文档,涵盖FSDP和Megatron后端的配置说明。

该PR值得快速浏览以了解NVFP4 QAT的配置概览,但文档中的两个未解决问题需要后续跟进。建议关注quantization_config_path参数的实际使用情况和模型名称的准确性,以确保文档与代码实现一致。

参与讨论