← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 18:11 同步状态：空闲下次计划：2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#5986 [perf] feat: simplify precision_debugger config behavior and docs

作者 Tjh-UKN · 合并时间 2026-04-14 15:52

性能优化重要性 6.00 洞察度 5.00

简化 PrecisionDebugger 配置，统一使用全局 profiler 控制步骤和保存路径。

该 PR 值得精读，重点关注配置简化设计如何统一 profiler 控制。推荐关注 PrecisionDebuggerToolConfig 类的变更和 PrecisionDebuggerProfiler 中路径与步骤逻辑的调整，这些是核心设计决策。对于使用 msprobe 的工程师，应仔细阅读更新后的文档以适应新配置方式。

查看完整分析 GitHub 原始 PR perfdoctrainer

#5991 [fsdp] feat: qwen3.5 add npu docker file

作者 ruanhao566 · 合并时间 2026-04-14 14:30

功能重要性 5.00 洞察度 3.00

为 Qwen3.5 模型新增 Ascend NPU 的 FSDP 训练 Docker 镜像和 CI 工作流。

建议在合并后立即检查 Dockerfile 中的版本号，参考 review 评论进行修正以避免构建失败；对于关注 NPU 硬件支持和 Docker 部署的团队，此 PR 值得精读以了解扩展方向，但设计决策相对直白。

查看完整分析 GitHub 原始 PR fsdpnpudocker

#5961 [rollout, vllm] fix: auto-convert disable_mm_preprocessor_cache to mm_processor_cache_gb for vllm >= 0.13.0

作者 Silas-11 · 合并时间 2026-04-14 14:26

缺陷修复重要性 6.00 洞察度 5.00

自动转换 vLLM 废弃的多模态预处理器缓存参数，确保 vLLM >= 0.13.0 的兼容性。

建议工程团队精读此 PR，特别是 `vllm_async_server.py` 中的版本适配逻辑，作为处理第三方库 API 变化的参考案例。关注参数转换的策略和冲突处理方式，以应用于类似兼容性修复场景。

查看完整分析 GitHub 原始 PR rolloutvllmexamples

#5994 [doc] fix: move low precision doc

作者 sophiayyya · 合并时间 2026-04-14 14:20

文档重要性 2.00 洞察度 3.00

将低精度训练文档（FP8和NVFP4 QAT）从advance目录移动到新建的low_precision子目录。

这是一个简单的文档重构PR，无需深入阅读代码。对于文档维护者，值得关注的是文档组织结构化的思路——将相关主题文档集中管理。对于开发者，可以快速浏览以了解低精度训练文档的新位置。

查看完整分析 GitHub 原始 PR docmisctrainer

#5809 [ci, vllm] chore: update vllm-omni 0.18.0 official release and Miscellaneous

作者 AndyZhou952 · 合并时间 2026-04-14 14:05

其他重要性 6.00 洞察度 5.00

升级vllm-omni至0.18.0官方版本，新增TP支持并同步上游代码模式。

建议开发者精读此PR以了解vllm-omni 0.18.0的集成方式，特别是TP支持的测试策略和代码简化模式。关注_create_tp_compatible_model函数的设计，适用于处理模型配置不兼容的测试场景，以及如何通过上下文管理器优雅管理临时资源。

查看完整分析 GitHub 原始 PR civllmagent_loop

2026-04-13

#5988 [fully_async] feat: enable fully async to log_val_generations

作者 Begunner · 合并时间 2026-04-13 18:56

功能重要性 5.00 洞察度 6.00

为fully_async训练模式新增验证生成样本的日志记录功能。

该PR值得精读，特别是review中关于样本捕获正确性的讨论，展示了在异步训练中处理分布式日志的典型模式。关注`ValidateMetrics`数据扩展和`ValidationGenerationsLogger`的使用方式。

查看完整分析 GitHub 原始 PR fully_asynctrainerrollout

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标，用于定位训练瓶颈。

该PR值得快速浏览，可作为性能监控指标添加的参考模板。重点关注：1. simple_timer的使用模式；2. 数据类字段扩展的向后兼容设计；3. slowest样本索引的多指标聚合逻辑修正。

查看完整分析 GitHub 原始 PR rewardperfagent_loop

#5899 [trainer] fix: return NaN for empty tensors in compute_data_metrics

作者 Jackie2049 · 合并时间 2026-04-13 17:32

缺陷修复重要性 4.00 洞察度 4.00

修复 PPO 训练器指标计算中空张量导致的崩溃，返回 NaN 以优雅处理边缘情况。

建议工程师阅读此 PR 以学习如何优雅处理空张量情况，特别关注 review 中讨论的设计决策，如对 `critic/values` 的双重检查和 Agentic RL 场景的解释。

查看完整分析 GitHub 原始 PR trainermisctool

第 4 / 18 页 · 共 143 条

上一页 1 2 3 4 5 … 18 下一页

支持 Prhub ♥