Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

fully_async 相关 PR

2026-04-17
缺陷修复 重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误,确保路由专家与生成模型版本一致。

fully_async rollout experimental megatron

该PR值得精读,特别是对于从事异步训练和MoE模型开发的工程师。关注点包括:1) 如何在部分rollout中处理模型版本差异;2) 路由专家拼接的设计决策(切片而非替换);3) review中关于张量类型的讨论,展示了实际环境中数据类型的保证。

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复 重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

fully_async rollout experimental megatron

该PR值得精读,它揭示了在异步训练中处理路由专家数据时的关键设计决策:直接替换而非拼接,以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论,以及实验结果的权衡。

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复 重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置,并关注 `override_transformer_config` 修复以确保补丁应用正确性;该 PR 值得快速浏览以了解 fully_async 训练扩展。

2026-04-15
功能 重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

fully_async examples npu trainer

该PR值得快速浏览,了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计,以及配置块的组织模式,以复用最佳实践。

2026-04-13

#5988 [fully_async] feat: enable fully async to log_val_generations

作者 Begunner · 合并时间 2026-04-13 18:56

功能 重要性 5.00 洞察度 6.00

为fully_async训练模式新增验证生成样本的日志记录功能。

fully_async trainer rollout misc

该PR值得精读,特别是review中关于样本捕获正确性的讨论,展示了在异步训练中处理分布式日志的典型模式。关注`ValidateMetrics`数据扩展和`ValidationGenerationsLogger`的使用方式。

缺陷修复 重要性 4.00 洞察度 3.00

修复fully_async训练中streaming_generation异常时monitor_task无法停止的问题。

fully_async rollout trainer

该PR值得快速浏览以了解fully_async训练模式的异常处理机制。虽然变更简单,但展示了在异步训练中正确处理异常的重要性。关注点:finally块的使用确保了资源清理,这是异步编程中的良好实践。

2026-04-03

#5864 [fully_async] chore: Update fully async dapo qwen3-30b npu script

作者 wangshuyang31 · 合并时间 2026-04-03 01:11

其他 重要性 3.00 洞察度 4.00

更新完全异步DAPO训练脚本,调整超参数以对齐同步脚本的奖励进展。

fully_async trainer npu misc

建议相关实验人员仔细阅读该脚本的变更,特别是超参数调整的逻辑。对于研究异步训练调优的工程师,可以关注staleness_threshold和PPO token长度计算的调整策略。普通开发者无需深入阅读。