← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 21:19 同步状态：空闲下次计划：2026-04-18 22:19

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#5887 [ci] fix: fix machine label for nightly_ascend.yml

作者 yyyy2000 · 合并时间 2026-04-07 09:31

基础设施重要性 2.00 洞察度 1.00

修复 nightly_ascend.yml CI 作业的机器标签配置错误。

该 PR 变更简单，无需精读。对于关注 CI 基础设施或 Ascend NPU 测试的工程师，可快速浏览以了解机器标签的命名规范。

查看完整分析 GitHub 原始 PR cimisc

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎，支持FlowGRPO算法。

建议技术管理者和工程师精读此PR，重点关注：1. DiffusersFSDPEngine的设计模式，特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策，如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

查看完整分析 GitHub 原始 PR trainerfsdpdiffusion

#5860 [trainer] fix: handle empty response_mask in calculate_debug_metrics

作者 Jackie2049 · 合并时间 2026-04-03 22:09

缺陷修复重要性 3.00 洞察度 2.00

修复calculate_debug_metrics在response_mask全为False时的运行时错误。

该PR值得快速浏览，但无需深入精读。关注点在于：1）防御性编程模式：通过早期返回处理无效输入。2）NaN作为无效指标的标准处理方式。对于涉及调试指标或极端采样场景的开发者，了解此修复可避免类似崩溃。

查看完整分析 GitHub 原始 PR trainermisctool

#5870 [megatron] fix: support critic model

作者 wuxibin89 · 合并时间 2026-04-03 22:07

缺陷修复重要性 6.00 洞察度 6.00

修复 Megatron critic 模型配置和训练问题，统一配置到 HFModelConfig。

建议技术管理者和工程师精读此 PR，重点关注：配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户，应检查并更新现有脚本以避免配置不兼容。

查看完整分析 GitHub 原始 PR megatrontrainerconfig

#5880 [ci] fix: rename fsdp-vlm to megatron-vlm in trtllm cleanup needs

作者 Superjomn · 合并时间 2026-04-03 21:03

fix 重要性 2.00 洞察度 1.00

修复TRTLLM端到端测试清理步骤中的作业名不匹配问题。

该PR变更简单，无需精读。对于关注CI/CD配置或TRTLLM测试流程的工程师，可以快速浏览以了解作业名更新。没有复杂的设计决策需要关注。

查看完整分析 GitHub 原始 PR cimisc

#5186 [tool] feat: verl integrate msprobe data collection

作者 Tjh-UKN · 合并时间 2026-04-03 16:55

功能重要性 7.00 洞察度 6.00

集成msprobe精度调试工具到VERL统一性能分析系统，支持Ascend训练侧数据收集。

建议技术管理者和工程师精读此PR，重点关注其如何将外部工具集成到统一分析器框架的设计决策，特别是阶段映射、模型解析和开销管理。值得关注`PrecisionDebuggerProfiler`类的实现和配置统一化方式，可作为类似集成的参考模板。

查看完整分析 GitHub 原始 PR toolperfnpu

#5874 [megatron, cfg] feat: add Qwen3.5-122B Megatron launch script

作者 none0663 · 合并时间 2026-04-03 14:20

功能重要性 5.00 洞察度 5.00

新增 Qwen3.5-122B Megatron 启动脚本，支持 32 GPU 大规模 GRPO 训练。

该 PR 对于需要运行 Qwen3.5-122B 或类似大规模模型的工程师值得参考，特别是关注 Megatron 并行配置（如 TP、PP、CP 设置）和模型特定限制（如 GDN 注意力格式）。建议精读脚本中的配置注释，以了解架构权衡和未来优化方向。

查看完整分析 GitHub 原始 PR megatronconfigexamples

#5861 [doc] feat: add NVFP4 QAT documentation

作者 zhangyimi · 合并时间 2026-04-03 14:10

文档重要性 3.00 洞察度 2.00

新增NVFP4量化感知训练文档，涵盖FSDP和Megatron后端的配置说明。

该PR值得快速浏览以了解NVFP4 QAT的配置概览，但文档中的两个未解决问题需要后续跟进。建议关注quantization_config_path参数的实际使用情况和模型名称的准确性，以确保文档与代码实现一致。

查看完整分析 GitHub 原始 PR docquantizationmegatron

第 9 / 18 页 · 共 143 条

上一页 1 … 7 8 9 10 11 … 18 下一页

支持 Prhub ♥