← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 20:16 同步状态：空闲下次计划：2026-04-18 21:16

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#5819 [env] fix: Modify the package installation sequence in the Ascend installation guide

作者 nuerxiati · 合并时间 2026-03-31 19:32

缺陷修复重要性 4.00 洞察度 2.00

修改 Ascend 安装指南中包安装顺序以解决 numpy 版本冲突。

此 PR 变更简单，属于例行维护，不值得精读。建议工程师仅当维护 Ascend 相关文档或遇到类似安装问题时参考此变更。

查看完整分析 GitHub 原始 PR docdepsmisc

#5769 [sglang, rollout] fix: wire up LoRA adapter path for engine_workers + sglang sleep

作者 cavities12 · 合并时间 2026-03-31 14:57

缺陷修复重要性 6.00 洞察度 6.00

修复SGLang rollout中LoRA适配器路径的权重同步顺序和内存释放问题。

建议精读engine_workers.py中的update_weights方法，关注base_sync_done逻辑调整和两阶段同步设计，这体现了SGLang与vLLM后端在LoRA处理上的重要差异。同时，review讨论中的跨后端兼容性权衡值得关注。

查看完整分析 GitHub 原始 PR sglangrolloutlora

#5057 [megatron] feat: support dynamic CP

作者 ISEEKYAN · 合并时间 2026-03-31 11:52

功能重要性 6.00 洞察度 6.00

为Megatron引擎引入动态上下文并行，自适应选择CP大小以优化内存和性能。

建议技术管理者和工程师精读此PR，重点关注动态CP选择逻辑（`dynamic_cp_split_batch`函数）、前后处理函数的适配（`preprocess_thd_engine`和`postprocess_thd_engine`），以及Megatron版本兼容性处理。这些设计决策展示了自适应并行策略的实现模式，值得学习。

查看完整分析 GitHub 原始 PR megatrontrainermodel

2026-03-30

#5816 [tool] chore: remove hard-code tool agent loop in fully async

作者 yyDing1 · 合并时间 2026-03-30 22:46

重构重要性 3.00 洞察度 4.00

移除完全异步策略中硬编码的工具代理循环，简化agent名称分配逻辑。

建议开发者在阅读此PR时，关注review中指出的潜在风险，并检查下游代码（如agent_loop或rollout模块）是否适配agent_name的隐式处理。此PR展示了代码清理时的设计权衡，值得注意但变更简单，无需深度精读。

查看完整分析 GitHub 原始 PR miscrolloutworker

#5804 [ci] feat: support Ascend A2/A3 docker image build pipeline for sglang

作者 xiazhahe · 合并时间 2026-03-30 19:18

基础设施重要性 5.00 洞察度 3.00

添加 Ascend A2/A3 的 sglang Docker 镜像构建流水线。

建议工程师在设置类似 Ascend 硬件流水线时参考此 PR，重点关注 CI 工作流的配置正确性和 Secrets 管理；对于依赖变更，建议后续添加测试验证镜像构建成功。

查看完整分析 GitHub 原始 PR cidepssglang

#5795 [trainer] feat: enable expandable segment support for npu

作者 ji-huazhong · 合并时间 2026-03-30 14:46

功能重要性 4.00 洞察度 5.00

为 NPU 设备启用 expandable segment 支持，优化内存分配。

建议开发者关注此 PR 的 TODO 注释和未来重构方向，了解 NPU 内存管理的最佳实践。对于涉及设备特定优化或训练工作者初始化的代码，此 PR 提供临时解决方案，值得参考以理解过渡设计。

查看完整分析 GitHub 原始 PR trainerworkermisc

#5716 [2/n][rollout] feat: flowgrpo - add diffusion agent loop support

作者 AndyZhou952 · 合并时间 2026-03-30 14:23

功能重要性 7.00 洞察度 7.00

新增扩散代理循环支持，为FlowGRPO训练扩展图像/视频rollout能力。

建议技术管理者和工程师精读此PR，重点关注：1）扩散代理循环的设计如何与现有agent loop框架集成。2）tokenizer线程安全问题的解决策略，包括在asyncio线程中tokenize的权衡。3）配置文件继承结构，了解扩散rollout的配置扩展方式。这些决策对多模态支持有重要参考价值。

查看完整分析 GitHub 原始 PR rolloutmodeltrainer

#5682 [fsdp, model] feat: add qwen3.5 fsdp grpo training support.

作者 Zhang1Sheng · 合并时间 2026-03-30 13:48

功能重要性 6.00 洞察度 6.00

新增Qwen3.5模型的FSDP GRPO训练支持，涵盖适配器、补丁和示例脚本。

该PR值得精读，特别是qwen3_5.py中的适配器设计展示了如何修复FSDP2 CPU卸载bug，以及monkey_patch.py的扩展模式。建议关注配置参数设置、依赖版本管理和测试覆盖策略，以避免常见部署问题。

查看完整分析 GitHub 原始 PR fsdpmodeltrainer

第 12 / 18 页 · 共 143 条

上一页 1 … 10 11 12 13 14 … 18 下一页

支持 Prhub ♥