Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

examples 相关 PR

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复 重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置,并关注 `override_transformer_config` 修复以确保补丁应用正确性;该 PR 值得快速浏览以了解 fully_async 训练扩展。

2026-04-15
功能 重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

fully_async examples npu trainer

该PR值得快速浏览,了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计,以及配置块的组织模式,以复用最佳实践。

2026-04-14
缺陷修复 重要性 6.00 洞察度 5.00

自动转换 vLLM 废弃的多模态预处理器缓存参数,确保 vLLM >= 0.13.0 的兼容性。

rollout vllm examples misc

建议工程团队精读此 PR,特别是 `vllm_async_server.py` 中的版本适配逻辑,作为处理第三方库 API 变化的参考案例。关注参数转换的策略和冲突处理方式,以应用于类似兼容性修复场景。

2026-04-13

#5950 [doc] chore: add rloo advantage estimator example script for npu

作者 zjchenn · 合并时间 2026-04-13 16:01

文档 重要性 3.00 洞察度 4.00

为NPU硬件新增RLOO优势估计器训练示例脚本,并合并到现有GPU脚本中。

doc npu trainer examples

该PR值得NPU用户或需要参考RLOO配置的工程师浏览,重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者,可关注团队如何通过review优化硬件兼容性和验证频率,体现了对用户体验的考量。

2026-04-10
功能 重要性 6.00 洞察度 6.00

为GB200(aarch64/Blackwell)添加Docker镜像和训练示例,扩展硬件支持并适配测试。

docker trainer examples rollout vllm

建议技术管理者和工程师精读此PR,重点关注Dockerfile多架构设计决策(如统一x86_64/aarch64支持)、测试动态适配策略(使用`torch.cuda.device_count()`)以及硬件特定配置(如Blackwell的FlashAttention限制)。讨论中的设计权衡,如Dockerfile合并过程和依赖版本管理,也值得借鉴。

2026-04-08

#5908 [doc] chore: Bug fixes for the qwen3-235b model in 256k scenarios

作者 autbuster · 合并时间 2026-04-08 14:40

缺陷修复 重要性 4.00 洞察度 3.00

修复Qwen3-235B模型在256K长序列场景下的Megatron并行配置和训练脚本错误。

megatron examples trainer npu

建议技术管理者关注review中提到的并行配置错误是否已实际解决,并验证修改后的配置在目标硬件上的可运行性。工程师可参考该PR了解大规模模型训练的配置调整模式,但需谨慎评估并行度设置的合理性。

2026-04-03

#5874 [megatron, cfg] feat: add Qwen3.5-122B Megatron launch script

作者 none0663 · 合并时间 2026-04-03 14:20

功能 重要性 5.00 洞察度 5.00

新增 Qwen3.5-122B Megatron 启动脚本,支持 32 GPU 大规模 GRPO 训练。

megatron config examples trainer

该 PR 对于需要运行 Qwen3.5-122B 或类似大规模模型的工程师值得参考,特别是关注 Megatron 并行配置(如 TP、PP、CP 设置)和模型特定限制(如 GDN 注意力格式)。建议精读脚本中的配置注释,以了解架构权衡和未来优化方向。

2026-03-30

#5682 [fsdp, model] feat: add qwen3.5 fsdp grpo training support.

作者 Zhang1Sheng · 合并时间 2026-03-30 13:48

功能 重要性 6.00 洞察度 6.00

新增Qwen3.5模型的FSDP GRPO训练支持,涵盖适配器、补丁和示例脚本。

fsdp model trainer examples npu

该PR值得精读,特别是qwen3_5.py中的适配器设计展示了如何修复FSDP2 CPU卸载bug,以及monkey_patch.py的扩展模式。建议关注配置参数设置、依赖版本管理和测试覆盖策略,以避免常见部署问题。