Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 18:11 同步状态:空闲 下次计划:2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-04-16
缺陷修复 重要性 8.43 洞察度 6.00

修复多轨迹训练中批次样本数不满足数据并行和PPO小批次可除性导致的错误。

该PR值得精读,特别是`padding_utils.py`中的设计决策:如何构造最小填充样本、处理多维位置ID和专家路由、以及通过`is_padding`标签隔离指标计算。这些设计对于理解分布式训练中的数据对齐和性能权衡有重要参考价值。同时,应关注review中提到的性能瓶颈和边缘情况,在实际部署中监控I/O开销和指标准确性。

基础设施 重要性 4.42 洞察度 3.00

为 Qwen3.5 模型新增 x86_64 架构的 Ascend NPU Docker 镜像支持。

该 PR 变更直接,主要涉及基础设施配置,适合快速浏览以了解新增的 x86_64 架构支持。值得关注的是 reviewer 指出的代码重复和安全问题,这为后续优化提供了明确方向。

缺陷修复 重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置,并关注 `override_transformer_config` 修复以确保补丁应用正确性;该 PR 值得快速浏览以了解 fully_async 训练扩展。

#6022 [ci] fix: update docker-build-ascend-a3-qwen3_5

作者 yyyy2000 · 合并时间 2026-04-16 20:56

基础设施 重要性 5.14 洞察度 4.00

更新Ascend A3 Qwen3.5 Docker CI工作流以支持多架构构建并修复触发问题。

对于负责CI/CD或Docker基础设施的工程师值得精读,以了解多架构镜像构建的最佳实践和GitHub Actions配置细节;核心算法开发者可略过,除非涉及部署或硬件兼容性问题。

基础设施 重要性 4.06 洞察度 3.00

为 Qwen3.5 模型升级 Ascend NPU Docker 镜像至 CANN 8.5.2 版本。

此 PR 主要涉及基础设施更新,变更相对直接,适合快速浏览以了解 CANN 版本升级的配置细节。建议关注 Dockerfile 中 CANN 安装和路径设置的实现方式,以及 review 中讨论的架构兼容性修复,这些对构建可靠的多架构镜像有参考价值。

功能 重要性 5.86 洞察度 5.00

为 ToolAgentLoop 新增基于样本的工具选择功能,支持多轮 rollout 中每个样本使用不同工具子集。

此 PR 值得精读,因为它展示了如何在现有状态机中嵌入样本级配置,而无需大规模重构。关注 `run()` 方法中的工具筛选逻辑和 `getattr` 的使用,这体现了灵活的设计决策,允许逐步迁移到更复杂的工具管理系统。同时,注意 review 中关于实现与描述不符的讨论,这提醒了保持文档同步的重要性。

参与讨论