← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 18:11 同步状态：空闲下次计划：2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#5950 [doc] chore: add rloo advantage estimator example script for npu

作者 zjchenn · 合并时间 2026-04-13 16:01

文档重要性 3.00 洞察度 4.00

为NPU硬件新增RLOO优势估计器训练示例脚本，并合并到现有GPU脚本中。

该PR值得NPU用户或需要参考RLOO配置的工程师浏览，重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者，可关注团队如何通过review优化硬件兼容性和验证频率，体现了对用户体验的考量。

查看完整分析 GitHub 原始 PR docnputrainer

#5935 [ci] chore: Add veomni npu ci test

作者 wangshuyang31 · 合并时间 2026-04-13 15:58

基础设施重要性 4.00 洞察度 4.00

新增veomni NPU PPO训练器的端到端CI测试工作流。

该PR值得关心CI基础设施或NPU兼容性的工程师精读，特别是设备检测和配置自适应设计。关注 `run_ppo_trainer_veomni.sh` 中如何通过条件分支处理不同硬件，这是一个可复用的模式。

查看完整分析 GitHub 原始 PR cinputrainer

#5939 [rollout] fix: prevent engine_kwargs from overwriting KvCacheConfig in trtllm rollout

作者 Superjomn · 合并时间 2026-04-13 13:36

缺陷修复重要性 4.00 洞察度 4.00

修复TRT-LLM rollout中engine_kwargs覆盖KvCacheConfig导致配置丢失的问题。

该PR值得精读，特别是关注配置合并的设计决策。虽然变更简单，但展示了在多层配置传递中避免覆盖的关键技巧。建议关注gemini-code-assist[bot]提出的重复键和null值处理问题，这可能在类似场景中普遍存在。

查看完整分析 GitHub 原始 PR rollouttrtllmmisc

#5977 [fully_async]fix: terminated training when streaming_generation raise exception

作者 Zhikaiiii · 合并时间 2026-04-13 10:29

缺陷修复重要性 4.00 洞察度 3.00

修复fully_async训练中streaming_generation异常时monitor_task无法停止的问题。

该PR值得快速浏览以了解fully_async训练模式的异常处理机制。虽然变更简单，但展示了在异步训练中正确处理异常的重要性。关注点：finally块的使用确保了资源清理，这是异步编程中的良好实践。

查看完整分析 GitHub 原始 PR fully_asyncrollouttrainer

#5982 [ci] chore: Update ascend related files code owner

作者 FightingZhen · 合并时间 2026-04-13 10:25

基础设施重要性 2.00 洞察度 1.00

更新 Ascend 相关文件的代码所有者，将 @FightingZhen 替换为 @wucong25。

此 PR 变更简单，无需精读。对于技术管理者，可关注代码所有者调整是否反映了团队职责变化；对于工程师，无需特别关注，除非涉及相关模块的维护工作。

查看完整分析 GitHub 原始 PR cimiscnpu

#5960 [ci] fix: indentation error in one step off policy e2e ci

作者 HollowMan6 · 合并时间 2026-04-13 10:25

ci 重要性 2.00 洞察度 1.00

修复 one-step off-policy E2E CI 工作流中的缩进错误。

此 PR 变更简单，无需精读。对于 CI 维护者或需要了解 one-step off-policy 测试配置的工程师，可以快速浏览以确认缩进修正的正确性。没有复杂的设计决策值得关注。

查看完整分析 GitHub 原始 PR cimiscone_step_off

2026-04-10

#5895 [megatron] fix: MTP loss deadlock when using context parallelism

作者 xhx1022 · 合并时间 2026-04-10 17:15

缺陷修复重要性 5.00 洞察度 5.00

修复Megatron MTP损失在上下文并行（CP>1）时的死锁问题。

该PR值得精读，尤其是对于使用Megatron进行分布式训练的工程师。关注点在于：1. 死锁根因分析（CP rank参与all_reduce的必要性）。2. 设计权衡：通过分离参与all_reduce和写入指标的逻辑，既解决死锁又保持指标一致性。3. review中关于防御性编程的讨论，展示了实际工程中条件判断的边界考量。

查看完整分析 GitHub 原始 PR megatrontrainernpu

#5401 [trainer] feat: add new trainer with TranferQueue

作者 wuxibin89 · 合并时间 2026-04-10 12:15

功能重要性 7.00 洞察度 6.00

新增同步PPO训练器，通过TransferQueue解耦数据流以提升大规模训练性能。

该PR值得精读，特别是新训练器架构和TransferQueue集成设计。关注点包括：控制流与数据流解耦的实现、KVBatchMeta的使用、tqbridge装饰器的工作机制。建议工程师学习其性能优化技巧，但需注意review中提出的未解决问题。

查看完整分析 GitHub 原始 PR trainerrolloutperf

第 5 / 18 页 · 共 143 条

上一页 1 … 3 4 5 6 7 … 18 下一页

支持 Prhub ♥