Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 18:11 同步状态:空闲 下次计划:2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-04-14
性能优化 重要性 6.00 洞察度 5.00

简化 PrecisionDebugger 配置,统一使用全局 profiler 控制步骤和保存路径。

该 PR 值得精读,重点关注配置简化设计如何统一 profiler 控制。推荐关注 PrecisionDebuggerToolConfig 类的变更和 PrecisionDebuggerProfiler 中路径与步骤逻辑的调整,这些是核心设计决策。对于使用 msprobe 的工程师,应仔细阅读更新后的文档以适应新配置方式。

#5991 [fsdp] feat: qwen3.5 add npu docker file

作者 ruanhao566 · 合并时间 2026-04-14 14:30

功能 重要性 5.00 洞察度 3.00

为 Qwen3.5 模型新增 Ascend NPU 的 FSDP 训练 Docker 镜像和 CI 工作流。

建议在合并后立即检查 Dockerfile 中的版本号,参考 review 评论进行修正以避免构建失败;对于关注 NPU 硬件支持和 Docker 部署的团队,此 PR 值得精读以了解扩展方向,但设计决策相对直白。

缺陷修复 重要性 6.00 洞察度 5.00

自动转换 vLLM 废弃的多模态预处理器缓存参数,确保 vLLM >= 0.13.0 的兼容性。

建议工程团队精读此 PR,特别是 `vllm_async_server.py` 中的版本适配逻辑,作为处理第三方库 API 变化的参考案例。关注参数转换的策略和冲突处理方式,以应用于类似兼容性修复场景。

#5994 [doc] fix: move low precision doc

作者 sophiayyya · 合并时间 2026-04-14 14:20

文档 重要性 2.00 洞察度 3.00

将低精度训练文档(FP8和NVFP4 QAT)从advance目录移动到新建的low_precision子目录。

这是一个简单的文档重构PR,无需深入阅读代码。对于文档维护者,值得关注的是文档组织结构化的思路——将相关主题文档集中管理。对于开发者,可以快速浏览以了解低精度训练文档的新位置。

其他 重要性 6.00 洞察度 5.00

升级vllm-omni至0.18.0官方版本,新增TP支持并同步上游代码模式。

建议开发者精读此PR以了解vllm-omni 0.18.0的集成方式,特别是TP支持的测试策略和代码简化模式。关注_create_tp_compatible_model函数的设计,适用于处理模型配置不兼容的测试场景,以及如何通过上下文管理器优雅管理临时资源。

2026-04-13
功能 重要性 5.00 洞察度 6.00

为fully_async训练模式新增验证生成样本的日志记录功能。

该PR值得精读,特别是review中关于样本捕获正确性的讨论,展示了在异步训练中处理分布式日志的典型模式。关注`ValidateMetrics`数据扩展和`ValidationGenerationsLogger`的使用方式。

功能 重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。

该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。

缺陷修复 重要性 4.00 洞察度 4.00

修复 PPO 训练器指标计算中空张量导致的崩溃,返回 NaN 以优雅处理边缘情况。

建议工程师阅读此 PR 以学习如何优雅处理空张量情况,特别关注 review 中讨论的设计决策,如对 `critic/values` 的双重检查和 Agentic RL 场景的解释。

参与讨论