← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 19:13 同步状态：空闲下次计划：2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-24

#5653 [fully_async] chore: Add fully async dapo qwen3-30b npu script

作者 wangshuyang31 · 合并时间 2026-03-24 21:41

基础设施重要性 4.00 洞察度 3.00

新增 fully async DAPO 训练脚本，支持 Qwen3-30B 模型在 NPU 硬件上运行。

建议关注 review 中指出的 `overlong_buffer_len` 问题，在使用脚本前验证配置正确性。PR 本身变更简单，无需深入代码阅读，但可作为示例学习配置参数设置，并注意配置陷阱。

查看完整分析 GitHub 原始 PR miscexamplesmodel

#5722 [algo] feat: Implement IcePop in rollout correction

作者 HollowMan6 · 合并时间 2026-03-24 20:49

功能重要性 6.00 洞察度 6.00

在 rollout correction 中实现 IcePop 算法，通过重用阈值字段支持范围截断。

建议技术管理者和工程师精读此 PR，重点关注 IcePop 算法实现细节（如 `_parse_rollout_is_threshold` 解析逻辑）和配置扩展设计（重用字段避免 breaking change），这些决策展示了兼容性权衡和模块化设计，值得借鉴于类似功能添加场景。

查看完整分析 GitHub 原始 PR algoconfig

#5725 [trainer] fix: skip dataloader state restore when resuming at epoch boundary

作者 yyZhangAI · 合并时间 2026-03-24 14:24

缺陷修复重要性 5.00 洞察度 4.00

修复训练器在恢复检查点时在 epoch 边界无声失败的 bug。

对于涉及训练恢复、检查点管理或 dataloader 状态处理的开发者，此 PR 值得快速阅读以了解边界条件处理。重点关注 `_load_checkpoint` 中的条件判断设计，以便在类似场景中应用。

查看完整分析 GitHub 原始 PR trainermisc

#5652 [vllm] feat: Add support for the Qwen3_5MoeForCausalLM model On Ascend

作者 mikequan0425 · 合并时间 2026-03-24 13:55

功能重要性 5.00 洞察度 4.00

在vllm补丁中添加对Qwen3.5 MoE模型在Ascend平台上的支持。

该PR值得快速浏览以了解vllm补丁扩展模式，重点关注条件检查的优化设计（从`or`操作符改为元组）和版本兼容性的处理方式（TODO注释）。对于涉及Ascend或qwen3系列模型的开发者，可精读以理解模型支持的具体实现。

查看完整分析 GitHub 原始 PR vllmmodelmisc

#5675 [rollout] fix: enable FP8 quantization for SGLang rollout in fully async mode.

作者 eternally-z · 合并时间 2026-03-24 13:50

缺陷修复重要性 4.00 洞察度 5.00

修复 SGLang rollout 在完全异步模式下启用 FP8 量化时的异步生成器错误和配置初始化问题。

该 PR 值得精读，重点关注异步编程模式和配置初始化顺序的设计决策，对于处理混合同步/异步场景有借鉴意义。

查看完整分析 GitHub 原始 PR rolloutquantizationconfig

#5717 [ci] fix: fix various ci failure

作者 wuxibin89 · 合并时间 2026-03-24 12:14

基础设施重要性 5.00 洞察度 3.00

修复多个CI失败点，包括配置、导入错误和兼容性问题。

建议CI维护者和相关模块开发者（如模型初始化、数据集处理）精读此PR，重点关注`get_hf_rope_theta`函数的实现逻辑和LinearForLastLayer的参数调整，以了解兼容性处理和模块重构。

查看完整分析 GitHub 原始 PR cimiscdeps

2026-03-23

#5689 [fsdp] fix: avoid NestedTensor jagged dim ambiguity for 3D position_ids

作者 Solus-sano · 合并时间 2026-03-23 17:42

缺陷修复重要性 6.00 洞察度 6.00

修复FSDP训练中NestedTensor jagged维度歧义导致的间歇性形状错误。

建议技术管理者和工程师精读此PR，尤其关注`collate_variable_batch`函数的改动。值得学习的设计决策包括：从使用`.values()`切换到`unbind()+cat()`的临时修复，最终采纳`nested_tensor_from_jagged`以明确控制jagged维度，展示了在解决PyTorch API歧义时的渐进优化。此外，commit历史的演进揭示了问题根因定位的重要性。

查看完整分析 GitHub 原始 PR fsdpmisctrainer

#5699 [training_utils] fix: use response_lens.max() instead of offsets().max() for nested tensor max_response_len

作者 dubin555 · 合并时间 2026-03-23 17:37

缺陷修复重要性 5.00 洞察度 3.00

修复嵌套张量最大响应长度计算错误，用现有函数替换重复代码。

建议工程师阅读此PR以了解嵌套张量处理中的常见错误（如offsets().max()误用），并学习通过移除重复代码简化维护的设计模式。对于涉及训练损失计算或嵌套张量操作的开发者，此修复值得关注。