#5996 [veomni] feat: add DeepSeek-V3 to MOE_PARAM_HANDERS
作者 Luosuu · 合并时间 2026-04-16 21:30
为 DeepSeek-V3 MoE 模型添加 veomni 引擎参数映射支持。
该 PR 变更简单,适合快速了解 veomni 引擎如何扩展新模型支持。但需注意 review 中提到的映射 bug,建议后续关注相关修复 PR。
标签列表
聚合结果
作者 Luosuu · 合并时间 2026-04-16 21:30
为 DeepSeek-V3 MoE 模型添加 veomni 引擎参数映射支持。
该 PR 变更简单,适合快速了解 veomni 引擎如何扩展新模型支持。但需注意 review 中提到的映射 bug,建议后续关注相关修复 PR。
作者 ZLiao097 · 合并时间 2026-04-10 10:19
修复VLM+Megatron在NPU环境下的注意力掩码形状适配问题,提升NPU兼容性。
建议精读此PR以了解VLM在Megatron框架下的掩码处理机制,特别是NPU环境的特殊适配。关注`build_vlm_attn_mask_bshd`函数中的序列长度对齐逻辑,这对理解分布式训练中的张量并行和上下文并行至关重要。
作者 wuxibin89 · 合并时间 2026-04-09 16:08
回滚VLM+Megatron在NPU上的注意力掩码形状修复,恢复原有逻辑。
该PR值得关注,因为它回滚了一个重要的NPU适配修复,可能揭示了底层兼容性问题。建议精读以理解回滚的具体变更,并关注后续是否有替代修复。同时,review中提到的性能优化建议(向量化掩码创建)值得在未来的重构中考虑。
作者 ZLiao097 · 合并时间 2026-04-08 19:47
修复 VLM+Megatron 在 NPU 上的注意力掩码形状问题,适配 NPU 环境。
该 PR 值得精读,尤其是 NPU 环境下掩码处理的特殊设计(模型前向传 None,后处理保留 2D 掩码),这是硬件适配的典型模式。关注 `build_vlm_attn_mask_*` 函数的实现和 `is_npu_available` 的条件分支。
作者 reonokiy · 合并时间 2026-04-07 10:57
修复多个VLM模型dummy视觉前向中的原地加法操作,避免autograd RuntimeError。
该PR值得快速浏览以了解VLM模型dummy前向的常见陷阱。重点关注: 1. 为什么原地操作在autograd中间节点上危险? 2. 非原地加法如何确保梯度正确传播? 3. 未采纳的review建议揭示了哪些潜在优化点(如输出一致性处理和性能优化)?
作者 NoonePauseferg · 合并时间 2026-04-07 10:50
修复Megatron引擎中R3路由回放功能在DeepSeek模型上的配置传递错误。
该PR值得精读,特别是对于处理dataclass继承和参数传递的设计决策。关注点:1. 如何识别dataclass子类不继承修补__init__的问题。2. 将参数传递从构造函数移至属性设置的权衡。3. 与相关PR #4567(Qwen3VLTransformerConfig类似问题)的关联。
作者 zhtmike · 合并时间 2026-04-03 22:15
新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。
建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。
作者 wuxibin89 · 合并时间 2026-04-03 22:07
修复 Megatron critic 模型配置和训练问题,统一配置到 HFModelConfig。
建议技术管理者和工程师精读此 PR,重点关注:配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户,应检查并更新现有脚本以避免配置不兼容。