Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 20:16 同步状态:空闲 下次计划:2026-04-18 21:16

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-03-29
缺陷修复 重要性 4.00 洞察度 3.00

修复fully async测试中Megatron策略的OOM问题,通过标准化配置参数。

该PR变更较小且逻辑直白,不建议深入精读,除非您直接负责CI测试或fully async策略的配置优化。可关注配置标准化的设计决策,以避免硬件特定的条件分支,促进代码一致性。

2026-03-28
功能 重要性 5.00 洞察度 3.00

支持 mindspeed 后端在 use_remove_padding=False 时的注意力掩码处理。

建议专注于 NPU 后端开发或 trainer 模块的工程师精读此 PR,关注 `_build_npu_attn_mask` 函数的实现细节,以及如何集成设备特定逻辑到现有流程中,可作为设备优化案例参考。

2026-03-27
基础设施 重要性 5.00 洞察度 4.00

添加 dapo-moonlight-16b-megatron 的 NPU 夜间 CI 并优化日志路径。

建议关注新添加的 CI job 配置和脚本中的参数设置,特别是 Dapo 训练的超参数和日志路径逻辑。对于工程师,可以学习日志最佳实践和脚本编写技巧,review 讨论中的建议值得参考以改进代码质量。

缺陷修复 重要性 4.00 洞察度 3.00

修复MLFlow发布指标失败时的阻塞问题,确保训练进度不受影响。

该PR值得快速浏览,了解非阻塞错误处理的实现模式。重点关注重试策略的设计决策(避免sleep以保持训练流畅性),适合工程师学习如何在关键路径中处理外部依赖故障。

功能 重要性 6.00 洞察度 6.00

扩展skip rollout至V2版本,支持多步数据缓存与三种重用策略,加速RL训练。

该PR值得精读,重点关注RolloutSkip类的设计决策(如三种动作类型的实现机制、步长跟踪逻辑)和配置迁移策略。建议工程师审查安全风险和CACHE动作逻辑,确保在生产环境中配置安全目录并考虑序列化替代方案。

功能 重要性 6.00 洞察度 5.00

在 Ascend 950 设备上启用 MXFP8 量化 rollout 支持。

建议关注硬件特定的量化实现细节,如 `restore_mxfp8_weights_for_loading` 和 `apply_mxfp8_transformation_after_loading` 函数的逻辑,这些设计有助于处理权重加载后的转换。对于使用 Ascend 设备的开发者,此 PR 值得精读以了解 MXFP8 量化集成的完整流程。同时,留意 review 中解决的兼容性问题,可作为类似硬件适配的参考。

2026-03-26
缺陷修复 重要性 6.00 洞察度 5.00

修复 vllm 0.13 中 qwen3-moe 模型的权重加载问题。

建议工程团队仔细审查此 PR,特别是权重转置的逻辑设计和版本检查的实现。对于负责 vllm 集成的开发者,这是一个有价值的修复案例,可以借鉴其错误处理和代码优化策略。

参与讨论