Prhub
← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态:已开启 最近同步:2026-04-18 19:13 同步状态:空闲 下次计划:2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143
更多筛选
2026-03-24
基础设施 重要性 4.00 洞察度 3.00

新增 fully async DAPO 训练脚本,支持 Qwen3-30B 模型在 NPU 硬件上运行。

建议关注 review 中指出的 `overlong_buffer_len` 问题,在使用脚本前验证配置正确性。PR 本身变更简单,无需深入代码阅读,但可作为示例学习配置参数设置,并注意配置陷阱。

功能 重要性 6.00 洞察度 6.00

在 rollout correction 中实现 IcePop 算法,通过重用阈值字段支持范围截断。

建议技术管理者和工程师精读此 PR,重点关注 IcePop 算法实现细节(如 `_parse_rollout_is_threshold` 解析逻辑)和配置扩展设计(重用字段避免 breaking change),这些决策展示了兼容性权衡和模块化设计,值得借鉴于类似功能添加场景。

缺陷修复 重要性 5.00 洞察度 4.00

修复训练器在恢复检查点时在 epoch 边界无声失败的 bug。

对于涉及训练恢复、检查点管理或 dataloader 状态处理的开发者,此 PR 值得快速阅读以了解边界条件处理。重点关注 `_load_checkpoint` 中的条件判断设计,以便在类似场景中应用。

功能 重要性 5.00 洞察度 4.00

在vllm补丁中添加对Qwen3.5 MoE模型在Ascend平台上的支持。

该PR值得快速浏览以了解vllm补丁扩展模式,重点关注条件检查的优化设计(从`or`操作符改为元组)和版本兼容性的处理方式(TODO注释)。对于涉及Ascend或qwen3系列模型的开发者,可精读以理解模型支持的具体实现。

缺陷修复 重要性 4.00 洞察度 5.00

修复 SGLang rollout 在完全异步模式下启用 FP8 量化时的异步生成器错误和配置初始化问题。

该 PR 值得精读,重点关注异步编程模式和配置初始化顺序的设计决策,对于处理混合同步/异步场景有借鉴意义。

#5717 [ci] fix: fix various ci failure

作者 wuxibin89 · 合并时间 2026-03-24 12:14

基础设施 重要性 5.00 洞察度 3.00

修复多个CI失败点,包括配置、导入错误和兼容性问题。

建议CI维护者和相关模块开发者(如模型初始化、数据集处理)精读此PR,重点关注`get_hf_rope_theta`函数的实现逻辑和LinearForLastLayer的参数调整,以了解兼容性处理和模块重构。

2026-03-23
缺陷修复 重要性 6.00 洞察度 6.00

修复FSDP训练中NestedTensor jagged维度歧义导致的间歇性形状错误。

建议技术管理者和工程师精读此PR,尤其关注`collate_variable_batch`函数的改动。值得学习的设计决策包括:从使用`.values()`切换到`unbind()+cat()`的临时修复,最终采纳`nested_tensor_from_jagged`以明确控制jagged维度,展示了在解决PyTorch API歧义时的渐进优化。此外,commit历史的演进揭示了问题根因定位的重要性。

缺陷修复 重要性 5.00 洞察度 3.00

修复嵌套张量最大响应长度计算错误,用现有函数替换重复代码。

建议工程师阅读此PR以了解嵌套张量处理中的常见错误(如offsets().max()误用),并学习通过移除重复代码简化维护的设计模式。对于涉及训练损失计算或嵌套张量操作的开发者,此修复值得关注。

参与讨论