Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 18:11 同步状态:空闲 下次计划:2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-04-16
缺陷修复 重要性 5.91 洞察度 4.00

修复序列预处理中数据长度不足导致的索引越界问题,确保上下文并行切片安全。

该 PR 值得精读,因为它展示了在分布式训练中处理数据对齐和边界条件的典型模式。关注点包括: - 如何安全地处理可变长度序列的切片,避免索引越界。 - 在 review 讨论中,权衡了填充方案与索引检查方案的优缺点,最终选择了更轻量级的修复方式。 - 可作为处理类似数据预处理边界问题的参考案例。

缺陷修复 重要性 5.52 洞察度 4.00

修复 Megatron Actor 训练中忽略 calculate_entropy 配置的问题,使其与 dp_actor 行为一致。

该 PR 值得精读,特别是对于负责 Megatron 训练模块或配置系统的工程师。关注点包括:1) 如何通过 `self.config.get` 安全地处理可能缺失的配置键;2) 熵指标记录与损失计算解耦的设计,这体现了监控与优化目标分离的良好实践;3) 修复如何确保向后兼容性,不影响现有用户。

2026-04-15
缺陷修复 重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑,确保FP8训练结果正确。

该PR值得精读,特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括: 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充,这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数,展示了配置参数在数据流水线中的传递模式。 建议结合review评论思考安全性和性能的潜在改进空间。

#5900 [veomni] feat: bump veomni to v0.1.8

作者 deerlu · 合并时间 2026-04-15 17:13

功能 重要性 7.61 洞察度 6.00

升级VeOmni至v0.1.8,修复并行参数并新增打包序列Flash Attention预处理。

建议工程师精读此PR,重点关注`_prepare_veomni_flash_attention_kwargs`函数的实现细节和设备处理,以及配置自动重写机制的设计决策,这些对理解VeOmni集成和序列并行优化有参考价值。

缺陷修复 重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑,使其在mcore版本≥0.16.2时可选应用。

该PR值得精读,尤其是`patch_forward`函数中THD打包序列逻辑的重构,展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策,这反映了对代码上下文的深度理解。

功能 重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

该PR值得快速浏览,了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计,以及配置块的组织模式,以复用最佳实践。

2026-04-14

#6004 [doc] feat: move msprobe to ascend_tutorial

作者 tardis-key · 合并时间 2026-04-14 16:53

文档 重要性 2.00 洞察度 2.00

将 PrecisionDebugger 文档移动到 ascend_tutorial 目录并简化配置示例。

该 PR 变更简单,主要涉及文档整理,无需深入精读。建议关注配置简化的合理性,并确认 summary_mode 变更是否与近期 PR(如 #5986)的 PrecisionDebugger 改进一致。

参与讨论