Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

model 相关 PR

2026-04-16
2026-04-10
缺陷修复 重要性 5.00 洞察度 4.00

修复VLM+Megatron在NPU环境下的注意力掩码形状适配问题,提升NPU兼容性。

megatron model npu trainer

建议精读此PR以了解VLM在Megatron框架下的掩码处理机制,特别是NPU环境的特殊适配。关注`build_vlm_attn_mask_bshd`函数中的序列长度对齐逻辑,这对理解分布式训练中的张量并行和上下文并行至关重要。

2026-04-09
缺陷修复 重要性 6.00 洞察度 4.00

回滚VLM+Megatron在NPU上的注意力掩码形状修复,恢复原有逻辑。

megatron model npu trainer

该PR值得关注,因为它回滚了一个重要的NPU适配修复,可能揭示了底层兼容性问题。建议精读以理解回滚的具体变更,并关注后续是否有替代修复。同时,review中提到的性能优化建议(向量化掩码创建)值得在未来的重构中考虑。

2026-04-08
缺陷修复 重要性 5.00 洞察度 6.00

修复 VLM+Megatron 在 NPU 上的注意力掩码形状问题,适配 NPU 环境。

megatron model npu trainer

该 PR 值得精读,尤其是 NPU 环境下掩码处理的特殊设计(模型前向传 None,后处理保留 2D 掩码),这是硬件适配的典型模式。关注 `build_vlm_attn_mask_*` 函数的实现和 `is_npu_available` 的条件分支。

2026-04-07
缺陷修复 重要性 4.00 洞察度 5.00

修复多个VLM模型dummy视觉前向中的原地加法操作,避免autograd RuntimeError。

model misc trainer

该PR值得快速浏览以了解VLM模型dummy前向的常见陷阱。重点关注: 1. 为什么原地操作在autograd中间节点上危险? 2. 非原地加法如何确保梯度正确传播? 3. 未采纳的review建议揭示了哪些潜在优化点(如输出一致性处理和性能优化)?

#5884 [megatron] fix: enable_routing_replay fails with MLATransformerConfig…

作者 NoonePauseferg · 合并时间 2026-04-07 10:50

缺陷修复 重要性 5.00 洞察度 6.00

修复Megatron引擎中R3路由回放功能在DeepSeek模型上的配置传递错误。

megatron trainer model misc

该PR值得精读,特别是对于处理dataclass继承和参数传递的设计决策。关注点:1. 如何识别dataclass子类不继承修补__init__的问题。2. 将参数传递从构造函数移至属性设置的权衡。3. 与相关PR #4567(Qwen3VLTransformerConfig类似问题)的关联。

2026-04-03

#5802 [4/n][trainer] feat: flowgrpo - add diffusers + fsdp engine support

作者 zhtmike · 合并时间 2026-04-03 22:15

功能 重要性 7.00 洞察度 7.00

新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。

trainer fsdp diffusion algo model

建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。

#5870 [megatron] fix: support critic model

作者 wuxibin89 · 合并时间 2026-04-03 22:07

缺陷修复 重要性 6.00 洞察度 6.00

修复 Megatron critic 模型配置和训练问题,统一配置到 HFModelConfig。

megatron trainer config model

建议技术管理者和工程师精读此 PR,重点关注:配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户,应检查并更新现有脚本以避免配置不兼容。