← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 20:16 同步状态：空闲下次计划：2026-04-18 21:16

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-29

#5791 [ci] fix: resolve oom when allocating weight transfer buffer in fully async test cases

作者 0lynnlin0 · 合并时间 2026-03-29 01:26

缺陷修复重要性 4.00 洞察度 3.00

修复fully async测试中Megatron策略的OOM问题，通过标准化配置参数。

该PR变更较小且逻辑直白，不建议深入精读，除非您直接负责CI测试或fully async策略的配置优化。可关注配置标准化的设计决策，以避免硬件特定的条件分支，促进代码一致性。

查看完整分析 GitHub 原始 PR cimegatronmisc

2026-03-28

#5768 [trainer] feat: support use_remove_padding=False for mindspeed backend

作者 ji-huazhong · 合并时间 2026-03-28 15:34

功能重要性 5.00 洞察度 3.00

支持 mindspeed 后端在 use_remove_padding=False 时的注意力掩码处理。

建议专注于 NPU 后端开发或 trainer 模块的工程师精读此 PR，关注 `_build_npu_attn_mask` 函数的实现细节，以及如何集成设备特定逻辑到现有流程中，可作为设备优化案例参考。

查看完整分析 GitHub 原始 PR trainermodelmisc

2026-03-27

#5734 [ci] chore: add npu nightly ci for dapo-moonlight-16b-megatron and modify log path

作者 beirong8kmiles · 合并时间 2026-03-27 17:53

基础设施重要性 5.00 洞察度 4.00

添加 dapo-moonlight-16b-megatron 的 NPU 夜间 CI 并优化日志路径。

建议关注新添加的 CI job 配置和脚本中的参数设置，特别是 Dapo 训练的超参数和日志路径逻辑。对于工程师，可以学习日志最佳实践和脚本编写技巧，review 讨论中的建议值得参考以改进代码质量。

查看完整分析 GitHub 原始 PR cimegatronmisc

#5771 [trainer] fix: MLFlow publishing metrics failure should be non-blocking.

作者 sheilaliuxl · 合并时间 2026-03-27 12:01

缺陷修复重要性 4.00 洞察度 3.00

修复MLFlow发布指标失败时的阻塞问题，确保训练进度不受影响。

该PR值得快速浏览，了解非阻塞错误处理的实现模式。重点关注重试策略的设计决策（避免sleep以保持训练流畅性），适合工程师学习如何在关键路径中处理外部依赖故障。

查看完整分析 GitHub 原始 PR trainermisc

#5556 [rollout, tool] feat: support multi-step in skip_rollout v2

作者 zyang6 · 合并时间 2026-03-27 11:44

功能重要性 6.00 洞察度 6.00

扩展skip rollout至V2版本，支持多步数据缓存与三种重用策略，加速RL训练。

该PR值得精读，重点关注RolloutSkip类的设计决策（如三种动作类型的实现机制、步长跟踪逻辑）和配置迁移策略。建议工程师审查安全风险和CACHE动作逻辑，确保在生产环境中配置安全目录并考虑序列化替代方案。

查看完整分析 GitHub 原始 PR rollouttrainerconfig

#5756 [hardware, rollout] feat: enable MXFP8 rollout on Ascend 950 devices (DV100 & DV120)

作者 zhijie-os · 合并时间 2026-03-27 10:07

功能重要性 6.00 洞察度 5.00

在 Ascend 950 设备上启用 MXFP8 量化 rollout 支持。

建议关注硬件特定的量化实现细节，如 `restore_mxfp8_weights_for_loading` 和 `apply_mxfp8_transformation_after_loading` 函数的逻辑，这些设计有助于处理权重加载后的转换。对于使用 Ascend 设备的开发者，此 PR 值得精读以了解 MXFP8 量化集成的完整流程。同时，留意 review 中解决的兼容性问题，可作为类似硬件适配的参考。

查看完整分析 GitHub 原始 PR rolloutvllmquantization

2026-03-26

#5695 [fully_async] fix: Patch vllm013 weight loader for qwen3-moe series

作者 wangshuyang31 · 合并时间 2026-03-26 20:33

缺陷修复重要性 6.00 洞察度 5.00

修复 vllm 0.13 中 qwen3-moe 模型的权重加载问题。

建议工程团队仔细审查此 PR，特别是权重转置的逻辑设计和版本检查的实现。对于负责 vllm 集成的开发者，这是一个有价值的修复案例，可以借鉴其错误处理和代码优化策略。

查看完整分析 GitHub 原始 PR vllmmodelmisc

#5763 [doc] refactor: add constraints on the use of vpp and mbridge parameters

作者 zjchenn · 合并时间 2026-03-26 20:18

文档重要性 2.00 洞察度 1.00

更新 Ascend 后端文档，明确 VPP 与 mbridge 参数的不兼容性。

此 PR 是一个简单的文档更新，工程师可快速浏览以了解新约束，尤其在使用 Ascend 后端和 Megatron 时。无需深入技术细节，但值得关注以确保配置正确。

查看完整分析 GitHub 原始 PR miscmegatronconfig

第 13 / 18 页 · 共 143 条

上一页 1 … 11 12 13 14 15 … 18 下一页

支持 Prhub ♥