← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

fully_async 相关 PR

2026-04-17

#6046 [fully_async] fix: preserve per-iteration routed_experts on partial rollout resume

作者 NoonePauseferg · 合并时间 2026-04-17 22:01

缺陷修复重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误，确保路由专家与生成模型版本一致。

fully_async rollout experimental megatron

该PR值得精读，特别是对于从事异步训练和MoE模型开发的工程师。关注点包括：1) 如何在部分rollout中处理模型版本差异；2) 路由专家拼接的设计决策（切片而非替换）；3) review中关于张量类型的讨论，展示了实际环境中数据类型的保证。

查看完整分析 GitHub 原始 PR

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

fully_async rollout experimental megatron

该PR值得精读，它揭示了在异步训练中处理路由专家数据时的关键设计决策：直接替换而非拼接，以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论，以及实验结果的权衡。

查看完整分析 GitHub 原始 PR

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置，并关注 `override_transformer_config` 修复以确保补丁应用正确性；该 PR 值得快速浏览以了解 fully_async 训练扩展。

查看完整分析 GitHub 原始 PR

2026-04-15

#6006 [misc, fully_async] feat: add Qwen3-VL-8B fully async GRPO training script on geo3k

作者 Silas-11 · 合并时间 2026-04-15 10:26

功能重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

fully_async examples npu trainer

该PR值得快速浏览，了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计，以及配置块的组织模式，以复用最佳实践。

查看完整分析 GitHub 原始 PR

2026-04-13

#5988 [fully_async] feat: enable fully async to log_val_generations

作者 Begunner · 合并时间 2026-04-13 18:56

功能重要性 5.00 洞察度 6.00

为fully_async训练模式新增验证生成样本的日志记录功能。

fully_async trainer rollout misc

该PR值得精读，特别是review中关于样本捕获正确性的讨论，展示了在异步训练中处理分布式日志的典型模式。关注`ValidateMetrics`数据扩展和`ValidationGenerationsLogger`的使用方式。

查看完整分析 GitHub 原始 PR

#5977 [fully_async]fix: terminated training when streaming_generation raise exception

作者 Zhikaiiii · 合并时间 2026-04-13 10:29

缺陷修复重要性 4.00 洞察度 3.00

修复fully_async训练中streaming_generation异常时monitor_task无法停止的问题。

fully_async rollout trainer

该PR值得快速浏览以了解fully_async训练模式的异常处理机制。虽然变更简单，但展示了在异步训练中正确处理异常的重要性。关注点：finally块的使用确保了资源清理，这是异步编程中的良好实践。

查看完整分析 GitHub 原始 PR

2026-04-03

#5864 [fully_async] chore: Update fully async dapo qwen3-30b npu script

作者 wangshuyang31 · 合并时间 2026-04-03 01:11

其他重要性 3.00 洞察度 4.00

更新完全异步DAPO训练脚本，调整超参数以对齐同步脚本的奖励进展。

fully_async trainer npu misc

建议相关实验人员仔细阅读该脚本的变更，特别是超参数调整的逻辑。对于研究异步训练调优的工程师，可以关注staleness_threshold和PPO token长度计算的调整策略。普通开发者无需深入阅读。

查看完整分析 GitHub 原始 PR