#26839 fix(moe): avoid unpacking None from masked deep_gemm without overlap when sbo enabled

原始 PR 作者 whybeyoung 合并时间 2026-06-03 15:44 文件变更 1 提交数 2 评论 1 代码增减 +3 / -1

执行摘要

修复 SBO 下 DeepGEMM 返回 None 时的解包崩溃

在 SBO 启用但 down-gemm overlap 未激活的混合配置下（例如 --moe-runner-backend 为 AUTO 导致 enable_combine_down_gemm_two_stream_overlap() 返回 False），meta_overlap_args 被设置但 deep_gemm_wrapper.grouped_gemm_nt_f8f8bf16_masked 在没有 overlap_args 时返回 None，导致 block_m, threshold = deep_gemm_return_value 崩溃。PR body 详细描述了根本原因：meta_overlap_args 与 down_gemm_overlap_args 不同步。

建议精读。变更虽小但揭示了一个重要的配置同步问题，对于涉及 SBO 和 DeepGEMM 的工程师有学习价值。

讨论亮点

仅有一条来自 gemini-code-assist[bot] 的自动审核评论，总结了变更内容，无人工 review 讨论。Fridge003 审核通过。

实现拆解

该 PR 仅修改 python/sglang/srt/layers/moe/moe_runner/deep_gemm.py 中的一行条件判断。

定位问题：在 DeepGemmRunnerCore._run_masked_gemm 方法中，原代码无条件在 meta_overlap_args is not None 时解包 deep_gemm_return_value。
添加守卫：在 if meta_overlap_args is not None: 的基础上增加 and deep_gemm_return_value is not None 条件，确保只有当 GEMM 返回有效元组时才尝试解包。
注释说明：新增注释解释 deep_gemm_return_value 仅在 down-gemm overlap 时返回 (block_m, threshold)，否则为 None，而 meta_overlap_args 可能在没有 overlap 时被设置。

此修改是防御性编程，确保代码在处理深层嵌套配置时更加健壮。没有测试文件变更，但该修复逻辑简单且已通过 CI 校验。

文件	模块	状态	重要度
`python/sglang/srt/layers/moe/moe_runner/deep_gemm.py`	MoE 执行器	modified	5.47

关键符号

_run_masked_gemm

关键源码片段

python/sglang/srt/layers/moe/moe_runner/deep_gemm.py core-logic

核心修复文件，修改了 `_run_masked_gemm` 方法中的条件判断，避免在 `deep_gemm_return_value` 为 None 时解包。

# python/sglang/srt/layers/moe/moe_runner/deep_gemm.py
# ... (previous context) ...
        deep_gemm_return_value = deep_gemm_wrapper.grouped_gemm_nt_f8f8bf16_masked(
            (down_input, down_input_scale),
            (w2_weight, w2_scale),
            down_output,
            masked_m,
            expected_m,
            recipe_a=recipe_a,
            recipe_b=recipe_b,
            **gemm_overlap_args_dict,
        )
        meta_overlap_args = running_state.get("meta_overlap_args", None)
        # Returns (block_m, threshold) only with down-gemm overlap, else None;
        # meta_overlap_args may be set without overlap, so guard the unpack.
        if meta_overlap_args is not None and deep_gemm_return_value is not None:
            block_m, threshold = deep_gemm_return_value
            meta_overlap_args["block_m"] = block_m
            meta_overlap_args["threshold"] = threshold

        return down_output

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

变更极为局部（仅一行条件添加），回归风险极低。但需要关注：

如果将来 deep_gemm_return_value 在无 overlap 时返回其他假值（如 False），可能仍会导致问题，但当前 kernel 返回 None 不变。
无测试覆盖此特定配置路径，若后续重构 _run_masked_gemm 或修改 meta_overlap_args 的来源，可能再次引入类似不一致。

直接影响使用 --enable-single-batch-overlap 且 down-gemm overlap 未激活的部署场景，例如 DeepEP a2a + DeepGEMM masked-gemm 路径。该修复使这些配置在生产中避免崩溃。影响范围窄但重要性高。

缺少测试覆盖低回归风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复 SBO 下 DeepGEMM 返回 None 时的解包崩溃
推荐动作：建议精读。变更虽小但揭示了一个重要的配置同步问题，对于涉及 SBO 和 DeepGEMM 的工程师有学习价值。

功能与动机

实现拆解

该 PR 仅修改 python/sglang/srt/layers/moe/moe_runner/deep_gemm.py 中的一行条件判断。

定位问题：在 DeepGemmRunnerCore._run_masked_gemm 方法中，原代码无条件在 meta_overlap_args is not None 时解包 deep_gemm_return_value。
添加守卫：在 if meta_overlap_args is not None: 的基础上增加 and deep_gemm_return_value is not None 条件，确保只有当 GEMM 返回有效元组时才尝试解包。
注释说明：新增注释解释 deep_gemm_return_value 仅在 down-gemm overlap 时返回 (block_m, threshold)，否则为 None，而 meta_overlap_args 可能在没有 overlap 时被设置。

此修改是防御性编程，确保代码在处理深层嵌套配置时更加健壮。没有测试文件变更，但该修复逻辑简单且已通过 CI 校验。

关键文件：

python/sglang/srt/layers/moe/moe_runner/deep_gemm.py（模块 MoE 执行器；类别 source；类型 core-logic；符号 _run_masked_gemm）: 核心修复文件，修改了 _run_masked_gemm 方法中的条件判断，避免在 deep_gemm_return_value 为 None 时解包。

关键符号：_run_masked_gemm

关键源码片段

`python/sglang/srt/layers/moe/moe_runner/deep_gemm.py`

核心修复文件，修改了 _run_masked_gemm 方法中的条件判断，避免在 deep_gemm_return_value 为 None 时解包。

# python/sglang/srt/layers/moe/moe_runner/deep_gemm.py
# ... (previous context) ...
        deep_gemm_return_value = deep_gemm_wrapper.grouped_gemm_nt_f8f8bf16_masked(
            (down_input, down_input_scale),
            (w2_weight, w2_scale),
            down_output,
            masked_m,
            expected_m,
            recipe_a=recipe_a,
            recipe_b=recipe_b,
            **gemm_overlap_args_dict,
        )
        meta_overlap_args = running_state.get("meta_overlap_args", None)
        # Returns (block_m, threshold) only with down-gemm overlap, else None;
        # meta_overlap_args may be set without overlap, so guard the unpack.
        if meta_overlap_args is not None and deep_gemm_return_value is not None:
            block_m, threshold = deep_gemm_return_value
            meta_overlap_args["block_m"] = block_m
            meta_overlap_args["threshold"] = threshold

        return down_output

评论区精华

仅有一条来自 gemini-code-assist[bot] 的自动审核评论，总结了变更内容，无人工 review 讨论。Fridge003 审核通过。

暂无高价值评论线程

风险与影响

风险：变更极为局部（仅一行条件添加），回归风险极低。但需要关注：
- 如果将来 deep_gemm_return_value 在无 overlap 时返回其他假值（如 False），可能仍会导致问题，但当前 kernel 返回 None 不变。
- 无测试覆盖此特定配置路径，若后续重构 _run_masked_gemm 或修改 meta_overlap_args 的来源，可能再次引入类似不一致。
- 影响：直接影响使用 --enable-single-batch-overlap 且 down-gemm overlap 未激活的部署场景，例如 DeepEP a2a + DeepGEMM masked-gemm 路径。该修复使这些配置在生产中避免崩溃。影响范围窄但重要性高。
- 风险标记：缺少测试覆盖, 低回归风险

关联脉络

PR #27116 Revert "Fix hybrid linear attention misrouting plain-RadixAttention linear layers to the full backend (Ring-2.5-1T)": 同为 DeepGEMM 相关修复，涉及 MoE 路径的正确性。
PR #24870 Support NextN = 2/4 in DSV32: 涉及 DeepGEMM 和 MoE 的 overlap 优化，与本 PR 的 overlap 配置问题同源。

#26839 fix(moe): avoid unpacking None from masked deep_gemm without overlap when sbo enabled

执行摘要

修复 SBO 下 DeepGEMM 返回 None 时的解包崩溃

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论