← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

examples 相关 PR

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置，并关注 `override_transformer_config` 修复以确保补丁应用正确性；该 PR 值得快速浏览以了解 fully_async 训练扩展。

查看完整分析 GitHub 原始 PR

2026-04-15

#6006 [misc, fully_async] feat: add Qwen3-VL-8B fully async GRPO training script on geo3k

作者 Silas-11 · 合并时间 2026-04-15 10:26

功能重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

fully_async examples npu trainer

该PR值得快速浏览，了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计，以及配置块的组织模式，以复用最佳实践。

查看完整分析 GitHub 原始 PR

2026-04-14

#5961 [rollout, vllm] fix: auto-convert disable_mm_preprocessor_cache to mm_processor_cache_gb for vllm >= 0.13.0

作者 Silas-11 · 合并时间 2026-04-14 14:26

缺陷修复重要性 6.00 洞察度 5.00

自动转换 vLLM 废弃的多模态预处理器缓存参数，确保 vLLM >= 0.13.0 的兼容性。

rollout vllm examples misc

建议工程团队精读此 PR，特别是 `vllm_async_server.py` 中的版本适配逻辑，作为处理第三方库 API 变化的参考案例。关注参数转换的策略和冲突处理方式，以应用于类似兼容性修复场景。

查看完整分析 GitHub 原始 PR

2026-04-13

#5950 [doc] chore: add rloo advantage estimator example script for npu

作者 zjchenn · 合并时间 2026-04-13 16:01

文档重要性 3.00 洞察度 4.00

为NPU硬件新增RLOO优势估计器训练示例脚本，并合并到现有GPU脚本中。

doc npu trainer examples

该PR值得NPU用户或需要参考RLOO配置的工程师浏览，重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者，可关注团队如何通过review优化硬件兼容性和验证频率，体现了对用户体验的考量。

查看完整分析 GitHub 原始 PR

2026-04-10

#5596 [docker] feat: Add GB200 (aarch64/Blackwell) Docker image and training example

作者 kaixih · 合并时间 2026-04-10 11:23

功能重要性 6.00 洞察度 6.00

为GB200（aarch64/Blackwell）添加Docker镜像和训练示例，扩展硬件支持并适配测试。

docker trainer examples rollout vllm

建议技术管理者和工程师精读此PR，重点关注Dockerfile多架构设计决策（如统一x86_64/aarch64支持）、测试动态适配策略（使用`torch.cuda.device_count()`）以及硬件特定配置（如Blackwell的FlashAttention限制）。讨论中的设计权衡，如Dockerfile合并过程和依赖版本管理，也值得借鉴。

查看完整分析 GitHub 原始 PR

2026-04-08

#5908 [doc] chore: Bug fixes for the qwen3-235b model in 256k scenarios

作者 autbuster · 合并时间 2026-04-08 14:40

缺陷修复重要性 4.00 洞察度 3.00

修复Qwen3-235B模型在256K长序列场景下的Megatron并行配置和训练脚本错误。

megatron examples trainer npu

建议技术管理者关注review中提到的并行配置错误是否已实际解决，并验证修改后的配置在目标硬件上的可运行性。工程师可参考该PR了解大规模模型训练的配置调整模式，但需谨慎评估并行度设置的合理性。

查看完整分析 GitHub 原始 PR

2026-04-03

#5874 [megatron, cfg] feat: add Qwen3.5-122B Megatron launch script

作者 none0663 · 合并时间 2026-04-03 14:20

功能重要性 5.00 洞察度 5.00

新增 Qwen3.5-122B Megatron 启动脚本，支持 32 GPU 大规模 GRPO 训练。

megatron config examples trainer

该 PR 对于需要运行 Qwen3.5-122B 或类似大规模模型的工程师值得参考，特别是关注 Megatron 并行配置（如 TP、PP、CP 设置）和模型特定限制（如 GDN 注意力格式）。建议精读脚本中的配置注释，以了解架构权衡和未来优化方向。

查看完整分析 GitHub 原始 PR

2026-03-30

#5682 [fsdp, model] feat: add qwen3.5 fsdp grpo training support.

作者 Zhang1Sheng · 合并时间 2026-03-30 13:48

功能重要性 6.00 洞察度 6.00

新增Qwen3.5模型的FSDP GRPO训练支持，涵盖适配器、补丁和示例脚本。

fsdp model trainer examples npu

该PR值得精读，特别是qwen3_5.py中的适配器设计展示了如何修复FSDP2 CPU卸载bug，以及monkey_patch.py的扩展模式。建议关注配置参数设置、依赖版本管理和测试覆盖策略，以避免常见部署问题。

查看完整分析 GitHub 原始 PR

第 1 / 2 页 · 共 14 条

1 2 下一页