#1737 fix: propagate moe_token_dispatcher_type in bridge model provider

THUDM/slime · 作者 nanjiangwill · 合并时间 2026-03-22 16:25

分析状态已生成

文件变更 1提交数 1 · 评论 0

代码增减 +2 / -0

bugfix configuration dependency

执行摘要

修复 bridge 模式中 moe_token_dispatcher_type 传播缺失导致的 ValueError 错误。

关联Issue #1725描述了bug：PR #1715添加了variable_seq_lengths传播但遗漏了moe_token_dispatcher_type，导致在使用bridge模式时finalize()抛出ValueError: 'Token dispatcher type: allgather does not support variable sequence length'。由于slime始终设置args.variable_seq_lengths=True，所有bridge模式模型训练都受影响，需要传播moe_token_dispatcher_type以兼容Megatron版本。

对于使用bridge模式的开发者，此PR值得快速查看以理解参数传播机制和向后兼容性处理；关注hasattr的使用方式，可作为类似场景的参考。

讨论亮点

Review评论为空，没有讨论记录。

实现拆解

在文件slime/backends/megatron_utils/model_provider.py的wrapped_model_provider函数中，添加了两行代码：使用hasattr检查args是否具有moe_token_dispatcher_type属性，如果存在则将其值传播给provider.moe_token_dispatcher_type。这确保了参数正确传递，并用hasattr处理可能不存在的属性以向后兼容新Megatron版本。

文件	模块	状态	重要度
`slime/backends/megatron_utils/model_provider.py`	backends/megatron_utils	modified	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

wrapped_model_provider

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低。变更简单，仅添加参数传播，用hasattr保护兼容性，减少回归风险。但需确保args.moe_token_dispatcher_type已正确设置为alltoall（在arguments.py中已修正），否则可能仍引发验证错误。无测试覆盖变更，但逻辑直白，影响有限。

影响所有使用bridge模式的模型训练，修复了导致训练失败的bug，提升系统稳定性和用户体验。对开发者透明，无需额外配置。对团队而言，简化了Megatron版本兼容性处理，减少了错误排查时间。

兼容性处理参数传播缺失

关联 Issue

#1725 [bug] Bridge provider missing moe_token_dispatcher_type propagation with variable_seq_lengths

完整报告

执行摘要

修复bridge模式中因moe_token_dispatcher_type参数传播缺失导致的训练失败错误，通过添加兼容性传播提升系统稳定性，影响所有bridge模式模型。

功能与动机

此PR旨在解决Issue #1725描述的bug：当使用bridge模式时，由于模型提供者未传播moe_token_dispatcher_type参数，而slime始终设置variable_seq_lengths=True，导致Megatron-Core验证失败，finalize()抛出ValueError: Token dispatcher type: allgather does not support variable sequence length。这影响了所有bridge模式训练，需传播参数以兼容Megatron版本并纠正错误。

实现拆解

在slime/backends/megatron_utils/model_provider.py的wrapped_model_provider函数中，添加了以下代码：

if hasattr(args, "moe_token_dispatcher_type"):
    provider.moe_token_dispatcher_type = args.moe_token_dispatcher_type

这确保了args中的moe_token_dispatcher_type值（在arguments.py中已修正为alltoall）传播到provider，并使用hasattr检查处理属性可能不存在的情况，以兼容较新的Megatron版本。变更仅涉及两行添加，逻辑简单直接。

评论区精华

Review评论为空，无讨论记录。

风险与影响

风险：变更风险低，hasattr检查确保了向后兼容性，但需依赖args.moe_token_dispatcher_type已正确设置；无测试覆盖，但逻辑简单，回归可能性小。
影响：修复了所有bridge模式训练中的bug，提升系统稳定性；对用户透明，无需额外操作；对团队，减少了错误排查成本并示范了兼容性处理模式。

关联脉络

此PR与Issue #1725直接关联，修复了其中描述的bug。从Issue可追溯到PR #1715，后者添加了variable_seq_lengths传播但遗漏了moe_token_dispatcher_type，导致此问题。整体来看，这是bridge模式参数传播机制的完善，反映了在集成Megatron时对参数兼容性的持续关注。

支持 Prhub ♥

#1737 fix: propagate moe_token_dispatcher_type in bridge model provider

执行摘要

修复 bridge 模式中 moe_token_dispatcher_type 传播缺失导致的 ValueError 错误。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论