← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

model 相关 PR

2026-04-16

#5996 [veomni] feat: add DeepSeek-V3 to MOE_PARAM_HANDERS

作者 Luosuu · 合并时间 2026-04-16 21:30

功能重要性 4.60 洞察度 3.00

为 DeepSeek-V3 MoE 模型添加 veomni 引擎参数映射支持。

veomni model misc

该 PR 变更简单，适合快速了解 veomni 引擎如何扩展新模型支持。但需注意 review 中提到的映射 bug，建议后续关注相关修复 PR。

查看完整分析 GitHub 原始 PR

2026-04-10

#5945 [megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU

作者 ZLiao097 · 合并时间 2026-04-10 10:19

缺陷修复重要性 5.00 洞察度 4.00

修复VLM+Megatron在NPU环境下的注意力掩码形状适配问题，提升NPU兼容性。

megatron model npu trainer

建议精读此PR以了解VLM在Megatron框架下的掩码处理机制，特别是NPU环境的特殊适配。关注`build_vlm_attn_mask_bshd`函数中的序列长度对齐逻辑，这对理解分布式训练中的张量并行和上下文并行至关重要。

查看完整分析 GitHub 原始 PR

2026-04-09

#5942 Revert "[megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU"

作者 wuxibin89 · 合并时间 2026-04-09 16:08

缺陷修复重要性 6.00 洞察度 4.00

回滚VLM+Megatron在NPU上的注意力掩码形状修复，恢复原有逻辑。

megatron model npu trainer

该PR值得关注，因为它回滚了一个重要的NPU适配修复，可能揭示了底层兼容性问题。建议精读以理解回滚的具体变更，并关注后续是否有替代修复。同时，review中提到的性能优化建议（向量化掩码创建）值得在未来的重构中考虑。

查看完整分析 GitHub 原始 PR

2026-04-08

#5904 [megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU

作者 ZLiao097 · 合并时间 2026-04-08 19:47

缺陷修复重要性 5.00 洞察度 6.00

修复 VLM+Megatron 在 NPU 上的注意力掩码形状问题，适配 NPU 环境。

megatron model npu trainer

该 PR 值得精读，尤其是 NPU 环境下掩码处理的特殊设计（模型前向传 None，后处理保留 2D 掩码），这是硬件适配的典型模式。关注 `build_vlm_attn_mask_*` 函数的实现和 `is_npu_available` 的条件分支。

查看完整分析 GitHub 原始 PR

2026-04-07

#5881 [model] fix: replace inplace += with out-of-place addition in dummy visual forward

作者 reonokiy · 合并时间 2026-04-07 10:57

缺陷修复重要性 4.00 洞察度 5.00

修复多个VLM模型dummy视觉前向中的原地加法操作，避免autograd RuntimeError。

model misc trainer

该PR值得快速浏览以了解VLM模型dummy前向的常见陷阱。重点关注： 1. 为什么原地操作在autograd中间节点上危险？ 2. 非原地加法如何确保梯度正确传播？ 3. 未采纳的review建议揭示了哪些潜在优化点（如输出一致性处理和性能优化）？

查看完整分析 GitHub 原始 PR

#5884 [megatron] fix: enable_routing_replay fails with MLATransformerConfig…

作者 NoonePauseferg · 合并时间 2026-04-07 10:50

缺陷修复重要性 5.00 洞察度 6.00

修复Megatron引擎中R3路由回放功能在DeepSeek模型上的配置传递错误。

megatron trainer model misc

该PR值得精读，特别是对于处理dataclass继承和参数传递的设计决策。关注点：1. 如何识别dataclass子类不继承修补__init__的问题。2. 将参数传递从构造函数移至属性设置的权衡。3. 与相关PR #4567（Qwen3VLTransformerConfig类似问题）的关联。

查看完整分析 GitHub 原始 PR

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎，支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR，重点关注：1. DiffusersFSDPEngine的设计模式，特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策，如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

查看完整分析 GitHub 原始 PR

#5870 [megatron] fix: support critic model

作者 wuxibin89 · 合并时间 2026-04-03 22:07

缺陷修复重要性 6.00 洞察度 6.00

修复 Megatron critic 模型配置和训练问题，统一配置到 HFModelConfig。

megatron trainer config model

建议技术管理者和工程师精读此 PR，重点关注：配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户，应检查并更新现有脚本以避免配置不兼容。

查看完整分析 GitHub 原始 PR

第 1 / 3 页 · 共 24 条

1 2 3 下一页