← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 19:13 同步状态：空闲下次计划：2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#5254 [megatron, vllm] feat: NVFP4 (W4A16) QAT training support via ModelOpt

作者 jQizhang · 合并时间 2026-03-23 15:53

功能重要性 7.00 洞察度 6.00

为Megatron训练管道添加NVFP4 W4A16量化感知训练支持，并通过ModelOpt集成vLLM推理。

建议技术管理者和工程师精读此PR，特别关注`verl/utils/modelopt/`模块中的设计决策，如分布式权重导出器（`QATWeightExporter`）的实现和vLLM补丁机制。此外，review讨论中提到的代码重构点值得学习，以提升代码质量和可维护性。

查看完整分析 GitHub 原始 PR quantizationmodelvllm

#5627 [perf, trainer, training_utils, ray, worker] fix: Add set_numa_affinity() for engine workers: TrainingWorker.

作者 sheilaliuxl · 合并时间 2026-03-23 13:55

性能优化重要性 5.00 洞察度 5.00

为TrainingWorker添加NUMA亲和性设置，提升GPU训练性能6.1%。

建议技术管理者关注此PR以了解NUMA优化在分布式训练中的应用和硬件兼容性权衡；工程师可精读代码学习如何集成性能调优函数，但需注意NPU限制。

查看完整分析 GitHub 原始 PR trainerperfworker

#5669 [fsdp, perf, doc] fix: fix Liger integration for VL models and RL training, allowing liger speed improvement

作者 EricMarcus-ai · 合并时间 2026-03-23 13:22

缺陷修复重要性 7.00 洞察度 5.00

修复 Liger 内核集成以兼容视觉语言模型和强化学习训练，提升训练速度。

建议精读此 PR，关注 _apply_liger_kernel_to_instance 的参数传递设计决策，以及如何通过测试确保兼容性。对于涉及内核优化和模型集成的开发者，此 PR 提供了避免冲突的实用模式和性能基准参考。

查看完整分析 GitHub 原始 PR perffsdpmodel

#5705 [megatron, ckpt] fix: set dist_ckpt_optim_fully_reshardable default to False

作者 koanho · 合并时间 2026-03-23 12:25

缺陷修复重要性 5.00 洞察度 3.00

将 `dist_ckpt_optim_fully_reshardable` 默认值设为 False，以避免检查点保存时的高 CPU 内存 OOM。

建议：此 PR 值得精读，特别是对于使用大模型训练的团队。重点阅读 `verl/trainer/config/engine/megatron.yaml` 的更改和文档中的警告部分，了解 fully reshardable 与 dp-reshardable 格式的权衡，以确保正确配置检查点策略。

查看完整分析 GitHub 原始 PR ckpttrainerconfig

#5698 [one_step_off] fix: fix one-step-off update weights before rollout finished

作者 wucong25 · 合并时间 2026-03-23 10:45

缺陷修复重要性 5.00 洞察度 5.00

修复one-step-off算法中权重更新时机错误导致推理中断的bug。

对于使用one-step-off算法的开发者，建议精读此PR以理解权重同步的正确时机。关注设计决策：将权重更新从`fit_step`移到`_fit_generate`以确保顺序执行，避免竞态条件，这在异步训练场景中具有参考价值。

查看完整分析 GitHub 原始 PR traineralgomisc

#5661 [vllm] fix: fp8 utils with vllm15 for moe model

作者 sophiayyya · 合并时间 2026-03-23 10:18

缺陷修复重要性 5.00 洞察度 5.00

修复vLLM 0.14/0.15版本中FP8工具与MoE模型的兼容性问题。

值得精读，尤其是学习如何使用`inspect`进行API版本兼容性处理的设计决策，对于处理外部库依赖变化的代码有参考价值。

查看完整分析 GitHub 原始 PR vllmquantizationmisc

#5701 [trtllm,rollout] fix hang issue from VLM codepath

作者 hchings · 合并时间 2026-03-23 10:12

缺陷修复重要性 6.00 洞察度 5.00

修复trtllm多节点rollout中因VLM代码路径导致的hang问题。

该PR值得精读，特别是对于负责分布式训练和rollout的工程师，因为它展示了在数据并行（DP）场景中正确处理rank映射和广播机制的关键设计决策。关注flush函数中的VLM检测和dist.get_global_rank使用，以避免类似通信错误。

查看完整分析 GitHub 原始 PR miscmodelvllm

2026-03-21

#5616 [1/n][vllm, rollout] feat: flowgrpo - support vllm-omni as rollout backend for verl

作者 knlnguyen1802 · 合并时间 2026-03-21 08:51

功能重要性 8.00 洞察度 7.00

添加 vLLM-Omni 作为 rollout 后端，支持扩散模型在 verl 强化学习管道中运行。

该 PR 值得精读，尤其关注以下设计决策：基类提取如何提升代码复用性、LoRA 权重同步的补丁机制、以及扩散模型配置的统一方式。建议关注 log-prob 计算的设计选择及其对算法的影响，同时注意自定义管道的放置策略对未来维护的意义。

查看完整分析 GitHub 原始 PR vllmrolloutmodel

第 17 / 18 页 · 共 143 条

上一页 1 … 14 15 16 17 18 下一页

支持 Prhub ♥