#26474 [HotFix][Ling 2.6] Fix HybridLinearAttn dispatcher for Ling-2.6

原始 PR 作者 yuan-luo 合并时间 2026-05-29 14:50 文件变更 3 提交数 2 评论 10 代码增减 +70 / -1

执行摘要

修复 Ling-2.6 混合注意力分发器误将线性层路由到全注意力后端

Ling-2.6 模型在启动时崩溃，错误为 ValueError: layer_id=0 not in full attention layers，原因是 HybridLinearAttnBackend._is_full_attn 先检查 isinstance(layer, RadixAttention) 返回 True，而 Ling-2.6 的线性层使用普通 RadixAttention，导致被错误路由到全注意力后端。

建议团队仔细阅读此 PR，特别是 _is_linear_attention 标记的设计和后续 side effect 分析。对于维护其他混合模型的开发者，应注意此标记可能被误用。同时关注后续对 Ring-2.5 问题的修复。该 PR 也展示了在类型检查和注册表之间进行 dispatch 设计的权衡。

讨论亮点

在 review 中，gemini-code-assist 建议将 full_attn_layers 列表转换为 set 以优化 O(1) 查找，但作者 yuan-luo 表示未来会重构 RadixLinearAttention，暂时接受当前方案。此外，评论者 ispobock 指出该修复对 Ring-2.5-1T 模型产生副作用，在 TP=8 时出现 NCCL ALLREDUCE 600s 超时，作者承诺后续调查。BBuf 要求简化注释和删除测试中的 smoke 描述，已采纳。

实现拆解

在 python/sglang/srt/models/bailing_moe_linear.py 的 BailingMoELinearAttention.init 中，为线性注意力层的 self.attn 添加 _is_linear_attention = True 标记，使分发器能识别这类包装在 RadixAttention 中的线性层。
在 python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py 的 _is_full_attn 方法中，在检查 isinstance(layer, RadixAttention) 之前增加对 _is_linear_attention 标记的判断，如果标记存在则返回 False（线性注意力），从而恢复正确的路由行为。
新增 test/registered/8-gpu-models/test_ling_2_6_flash.py 测试类，使用 GSM8K 精度测试验证 Ling-2.6-flash 在 TP=4 和 NEXTN MTP 下的正确性，并注册到 CI 的 base-c 阶段。通过 remove smoke 简化测试描述。
修复后，dispatch 逻辑依次检查：RadixLinearAttention 子类 → _is_linear_attention 标记 → RadixAttention 类型 → layer_id 注册表，保证了兼容性。

文件	模块	状态	重要度
`python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py`	注意力	modified	6.06
`python/sglang/srt/models/bailing_moe_linear.py`	模型定义	modified	5.8
`test/registered/8-gpu-models/test_ling_2_6_flash.py`	测试	added	6.07

关键符号

HybridLinearAttnBackend._is_full_attn BailingMoELinearAttention.__init__ TestLing26Flash

关键源码片段

python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py core-logic

核心分发逻辑修改，增加 _is_linear_attention 标记检查，确保 Ling 系列线性层正确路由。

def _is_full_attn(
    self, layer: Optional[RadixAttention], layer_id: Optional[int] = None
) -> bool:
    # 1. 显式线性注意力子类（KDA, Qwen3-Next 等）→ 强线性信号
    if isinstance(layer, RadixLinearAttention):
        return False
    # 2. Ling-2.5/2.6 等混合模型将线性层包装在普通 RadixAttention 中，
    # 通过 `_is_linear_attention = True` 标记区分
    if layer is not None and getattr(layer, "_is_linear_attention", False):
        return False
    # 3. 普通 RadixAttention 视为全注意力（包括 MTP 草稿层）
    if isinstance(layer, RadixAttention):
        return True

    # 4. 没有 layer 对象时，通过 layer_id 查询注册表
    if layer is not None:
        layer_id = layer.layer_id
    assert layer_id is not None, "至少需要提供 layer 或 layer_id"
    return layer_id in self.full_attn_layers

python/sglang/srt/models/bailing_moe_linear.py data-contract

为线性注意力层添加 _is_linear_attention 标记，是修复的基础数据契约变更。

        self.attn = RadixAttention(
            self.tp_heads,
            self.head_dim,
            self.scaling,
            num_kv_heads=self.tp_kv_heads,
            layer_id=layer_id,
            quant_config=quant_config,
            prefix=f"{prefix}.attn",
        )
        # 为 HybridLinearAttnBackend 设置标记：Bailing 将线性注意力层
        # 包装在普通 RadixAttention 中，因此分发器无法仅通过类型判断。
        # 设置此标记后，_is_full_attn 会识别出线性层并返回 False。
        self.attn._is_linear_attention = True

评论区精华

建议将 full_attn_layers 列表转换为 set 优化 O(1) 查找 性能

gemini-code-assist 建议在 _is_full_attn 中将 full_attn_layers 惰性转换为 set 以优化热路径性能。

结论：作者 yuan-luo 表示未来会重构 RadixLinearAttention，暂时接受当前方案。 · 已解决

简化注释和删除测试中的 smoke 描述 style

BBuf 要求简化 hybrid_linear_attn_backend.py 中过长的注释，并删除测试文件中的 "smoke" 字样。

结论：作者 yuan-luo 已修改。 · 已解决

该修复对 Ring-2.5-1T 模型产生 NCCL hang 副作用 正确性

ispobock 指出修复导致 Ring-2.5-1T 在 TP=8 时出现 600s NCCL ALLREDUCE 超时，表明 _is_linear_attention 标记影响了 Ring 的调度路径。

结论：作者 yuan-luo 承认问题并承诺后续调查，目前未解决。 · unresolved

风险与影响

主要风险在于新增的 _is_linear_attention 标记可能与其他模型冲突。评论已发现 Ring-2.5-1T 在 TP=8 下出现 NCCL hang，表明该标记影响了 Ring 模型的调度路径。另外，如果其他混合模型也错误地设置了此标记，可能导致全注意力层被误判为线性层。此外，当前 dispatch 逻辑依赖 getattr 检查，性能开销可忽略，但若 full_attn_layers 为列表，频繁 O(N) 查找可能影响热路径性能（但实际调用频率不高）。

直接影响：修复了 Ling-2.6-flash 模型启动崩溃，使其可在 TP=4 下正常运行，对于采用该模型的用户是重要修复。潜在负面影响：Ring-2.5-1T 模型在 TP=8 时可能遇到超时问题，该问题已复现但根因未明。团队需关注 nightly CI 中 Ring 测试结果。对 Qwen3-Next、KDA 等其他混合模型无影响，因为它们的线性层使用 RadixLinearAttention 子类，不会触发新的标记检查路径。

NCCL hang 隐患 Ring 模型兼容性风险标记依赖易扩散

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复 Ling-2.6 混合注意力分发器误将线性层路由到全注意力后端
推荐动作：建议团队仔细阅读此 PR，特别是 _is_linear_attention 标记的设计和后续 side effect 分析。对于维护其他混合模型的开发者，应注意此标记可能被误用。同时关注后续对 Ring-2.5 问题的修复。该 PR 也展示了在类型检查和注册表之间进行 dispatch 设计的权衡。

功能与动机

实现拆解

在 python/sglang/srt/models/bailing_moe_linear.py 的 BailingMoELinearAttention.init 中，为线性注意力层的 self.attn 添加 _is_linear_attention = True 标记，使分发器能识别这类包装在 RadixAttention 中的线性层。
在 python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py 的 _is_full_attn 方法中，在检查 isinstance(layer, RadixAttention) 之前增加对 _is_linear_attention 标记的判断，如果标记存在则返回 False（线性注意力），从而恢复正确的路由行为。
新增 test/registered/8-gpu-models/test_ling_2_6_flash.py 测试类，使用 GSM8K 精度测试验证 Ling-2.6-flash 在 TP=4 和 NEXTN MTP 下的正确性，并注册到 CI 的 base-c 阶段。通过 remove smoke 简化测试描述。
修复后，dispatch 逻辑依次检查：RadixLinearAttention 子类 → _is_linear_attention 标记 → RadixAttention 类型 → layer_id 注册表，保证了兼容性。

关键文件：

python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py（模块注意力；类别 source；类型 core-logic；符号 HybridLinearAttnBackend._is_full_attn）: 核心分发逻辑修改，增加 _is_linear_attention 标记检查，确保 Ling 系列线性层正确路由。
python/sglang/srt/models/bailing_moe_linear.py（模块模型定义；类别 source；类型 data-contract；符号 BailingMoELinearAttention.init）: 为线性注意力层添加 _is_linear_attention 标记，是修复的基础数据契约变更。
test/registered/8-gpu-models/test_ling_2_6_flash.py（模块测试；类别 test；类型 test-coverage；符号 TestLing26Flash）: 新增 CI 测试覆盖，验证 Ling-2.6-flash 混合注意力分发器在 TP=4 和 NEXTN MTP 下的正确性。

关键符号：HybridLinearAttnBackend._is_full_attn, BailingMoELinearAttention.init, TestLing26Flash

关键源码片段

`python/sglang/srt/layers/attention/hybrid_linear_attn_backend.py`

核心分发逻辑修改，增加 _is_linear_attention 标记检查，确保 Ling 系列线性层正确路由。

def _is_full_attn(
    self, layer: Optional[RadixAttention], layer_id: Optional[int] = None
) -> bool:
    # 1. 显式线性注意力子类（KDA, Qwen3-Next 等）→ 强线性信号
    if isinstance(layer, RadixLinearAttention):
        return False
    # 2. Ling-2.5/2.6 等混合模型将线性层包装在普通 RadixAttention 中，
    # 通过 `_is_linear_attention = True` 标记区分
    if layer is not None and getattr(layer, "_is_linear_attention", False):
        return False
    # 3. 普通 RadixAttention 视为全注意力（包括 MTP 草稿层）
    if isinstance(layer, RadixAttention):
        return True

    # 4. 没有 layer 对象时，通过 layer_id 查询注册表
    if layer is not None:
        layer_id = layer.layer_id
    assert layer_id is not None, "至少需要提供 layer 或 layer_id"
    return layer_id in self.full_attn_layers

`python/sglang/srt/models/bailing_moe_linear.py`

为线性注意力层添加 _is_linear_attention 标记，是修复的基础数据契约变更。

        self.attn = RadixAttention(
            self.tp_heads,
            self.head_dim,
            self.scaling,
            num_kv_heads=self.tp_kv_heads,
            layer_id=layer_id,
            quant_config=quant_config,
            prefix=f"{prefix}.attn",
        )
        # 为 HybridLinearAttnBackend 设置标记：Bailing 将线性注意力层
        # 包装在普通 RadixAttention 中，因此分发器无法仅通过类型判断。
        # 设置此标记后，_is_full_attn 会识别出线性层并返回 False。
        self.attn._is_linear_attention = True

评论区精华

建议将 full_attn_layers 列表转换为 set 优化 O(1) 查找 (performance): 作者 yuan-luo 表示未来会重构 RadixLinearAttention，暂时接受当前方案。
简化注释和删除测试中的 smoke 描述 (style): 作者 yuan-luo 已修改。
该修复对 Ring-2.5-1T 模型产生 NCCL hang 副作用 (correctness): 作者 yuan-luo 承认问题并承诺后续调查，目前未解决。

风险与影响

风险：主要风险在于新增的 _is_linear_attention 标记可能与其他模型冲突。评论已发现 Ring-2.5-1T 在 TP=8 下出现 NCCL hang，表明该标记影响了 Ring 模型的调度路径。另外，如果其他混合模型也错误地设置了此标记，可能导致全注意力层被误判为线性层。此外，当前 dispatch 逻辑依赖 getattr 检查，性能开销可忽略，但若 full_attn_layers 为列表，频繁 O(N) 查找可能影响热路径性能（但实际调用频率不高）。
影响：直接影响：修复了 Ling-2.6-flash 模型启动崩溃，使其可在 TP=4 下正常运行，对于采用该模型的用户是重要修复。潜在负面影响：Ring-2.5-1T 模型在 TP=8 时可能遇到超时问题，该问题已复现但根因未明。团队需关注 nightly CI 中 Ring 测试结果。对 Qwen3-Next、KDA 等其他混合模型无影响，因为它们的线性层使用 RadixLinearAttention 子类，不会触发新的标记检查路径。
风险标记：NCCL hang 隐患, Ring 模型兼容性风险, 标记依赖易扩散

关联脉络

暂无明显关联 PR

#26474 [HotFix][Ling 2.6] Fix HybridLinearAttn dispatcher for Ling-2.6

执行摘要

修复 Ling-2.6 混合注意力分发器误将线性层路由到全注意力后端

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论