Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 20:16 同步状态:空闲 下次计划:2026-04-18 21:16

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-03-31
缺陷修复 重要性 6.00 洞察度 6.00

修复SGLang rollout中LoRA适配器路径的权重同步顺序和内存释放问题。

建议精读engine_workers.py中的update_weights方法,关注base_sync_done逻辑调整和两阶段同步设计,这体现了SGLang与vLLM后端在LoRA处理上的重要差异。同时,review讨论中的跨后端兼容性权衡值得关注。

#5057 [megatron] feat: support dynamic CP

作者 ISEEKYAN · 合并时间 2026-03-31 11:52

功能 重要性 6.00 洞察度 6.00

为Megatron引擎引入动态上下文并行,自适应选择CP大小以优化内存和性能。

建议技术管理者和工程师精读此PR,重点关注动态CP选择逻辑(`dynamic_cp_split_batch`函数)、前后处理函数的适配(`preprocess_thd_engine`和`postprocess_thd_engine`),以及Megatron版本兼容性处理。这些设计决策展示了自适应并行策略的实现模式,值得学习。

2026-03-30
重构 重要性 3.00 洞察度 4.00

移除完全异步策略中硬编码的工具代理循环,简化agent名称分配逻辑。

建议开发者在阅读此PR时,关注review中指出的潜在风险,并检查下游代码(如agent_loop或rollout模块)是否适配agent_name的隐式处理。此PR展示了代码清理时的设计权衡,值得注意但变更简单,无需深度精读。

功能 重要性 4.00 洞察度 5.00

为 NPU 设备启用 expandable segment 支持,优化内存分配。

建议开发者关注此 PR 的 TODO 注释和未来重构方向,了解 NPU 内存管理的最佳实践。对于涉及设备特定优化或训练工作者初始化的代码,此 PR 提供临时解决方案,值得参考以理解过渡设计。

功能 重要性 7.00 洞察度 7.00

新增扩散代理循环支持,为FlowGRPO训练扩展图像/视频rollout能力。

建议技术管理者和工程师精读此PR,重点关注:1)扩散代理循环的设计如何与现有agent loop框架集成。2)tokenizer线程安全问题的解决策略,包括在asyncio线程中tokenize的权衡。3)配置文件继承结构,了解扩散rollout的配置扩展方式。这些决策对多模态支持有重要参考价值。

功能 重要性 6.00 洞察度 6.00

新增Qwen3.5模型的FSDP GRPO训练支持,涵盖适配器、补丁和示例脚本。

该PR值得精读,特别是qwen3_5.py中的适配器设计展示了如何修复FSDP2 CPU卸载bug,以及monkey_patch.py的扩展模式。建议关注配置参数设置、依赖版本管理和测试覆盖策略,以避免常见部署问题。

参与讨论