#23273 [NVIDIA] [GDN] Enable FlashInfer MTP verify on SM100+ (Blackwell)

原始 PR 作者 wenscarl 合并时间 2026-06-02 09:56 文件变更 4 提交数 6 评论 13 代码增减 +164 / -87

执行摘要

启用 FlashInfer GDN MTP 验证于 SM100+

Enables FlashInfer GDN MTP (speculative decoding) verify on SM100+ (Blackwell) hardware, previously raising NotImplementedError. SM90 (Hopper) MTP was already supported; this PR completes SM100+ coverage.

建议关注 gdn_flashinfer.py 中 _mtp_bf16_adapted 函数的适配技巧（中间状态切片、A_log float 转换），以及测试文件如何通过抽取公共参数和工具函数降低重复代码。该 PR 设计简洁，适合作为跨硬件后端子类化的参考案例。

讨论亮点

在代码审查中，Fridge003 要求为 FlashInfer MTP 使用场景添加测试，并建议放在 test/registered/4-gpu-models/test_qwen35_fp4_flashinfer.py。YAMY1234 回应已在 test_qwen35_fp4_mtp.py 中添加了 FlashInfer 专用测试类 TestQwen35FP4MTPFlashInfer。此外，nvpohanh 指出 H20 CI 失败是已知问题，已由另一个 PR 修复，建议合并。

实现拆解

在 gdn_flashinfer.py 中新增对 flashinfer.gdn_kernels.gdn_decode_bf16_state 中 gated_delta_rule_mtp 的导入（命名为 gated_delta_rule_mtp_bf16），并在 _get_flashinfer_gdn_kernels 返回元组中补充该函数。
新增内部函数 _mtp_bf16_adapted，将 FlashInfer bf16 状态 MTP kernel 包装成与现有 verify 接口兼容的形式（处理中间状态张量切片和 A_log 数据类型转换），并在 FlashInferGDNKernel.target_verify 中根据 state dtype 选择调用 fp32 或 bf16 路径。
在 server_args.py 的 _handle_linear_attn_backend 中移除对 speculative_algorithm is None 的条件判断，使 SM100+ 在启用 MTP 时也能自动默认 FlashInfer 作为线性注意力解码后端。
在 gdn_backend.py 中更新 verify kernel 选择逻辑的注释，反映 SM100+ 现在可以通过 FlashInfer 进行 MTP 验证（原来被错误地阻止）。
在 test/registered/models_e2e/test_qwen35_fp4_mtp.py 中将公共启动参数抽取为 MTP_BASE_ARGS 常量，提取 _run_mtp_gsm8k 工具函数，并新增 TestQwen35FP4MTPFlashInfer 测试类，使用 --linear-attn-decode-backend flashinfer 启动服务器并执行 gsm8k 评估，同时保留原有 Triton 测试类。
延长测试注册预估时间（340s → 740s）以容纳新增的 FlashInfer 测试轮次。

文件	模块	状态	重要度
`python/sglang/srt/layers/attention/linear/kernels/gdn_flashinfer.py`	注意力内核	modified	7.6
`test/registered/models_e2e/test_qwen35_fp4_mtp.py`	模型测试	modified	7.28
`python/sglang/srt/server_args.py`	服务器配置	modified	5.14
`python/sglang/srt/layers/attention/linear/gdn_backend.py`	后端路由	modified	4.62

关键符号

_mtp_bf16_adapted _run_mtp_gsm8k

关键源码片段

python/sglang/srt/layers/attention/linear/kernels/gdn_flashinfer.py dependency-wiring

核心变更文件：导入 bf16 状态 MTP kernel，新增 _mtp_bf16_adapted 适配器函数，统一 SM90 和 SM100+ 的 verify 路径。

def _get_flashinfer_gdn_kernels():
    """Lazy import for FlashInfer GDN prefill, decode and verify (MTP) kernels.

    Returns (available, prefill_fn, mtp_fn, decode_fn, mtp_bf16_fn).
    """
    global _flashinfer_gdn_available, _flashinfer_chunk_gated_delta_rule, _flashinfer_gated_delta_rule_mtp, _flashinfer_gated_delta_rule_decode, _flashinfer_gated_delta_rule_mtp_bf16
    if _flashinfer_gdn_available is None:
        try:
            os.environ.setdefault("FLASHINFER_DISABLE_VERSION_CHECK", "1")

            from flashinfer.gdn_decode import (
                gated_delta_rule_decode_pretranspose,
                gated_delta_rule_mtp,
            )
            from flashinfer.gdn_kernels.gdn_decode_bf16_state import (
                gated_delta_rule_mtp as gated_delta_rule_mtp_bf16, # 新增：导入 bf16 状态 MTP kernel
            )
            from flashinfer.gdn_prefill import chunk_gated_delta_rule

            _flashinfer_chunk_gated_delta_rule = chunk_gated_delta_rule
            _flashinfer_gated_delta_rule_mtp = gated_delta_rule_mtp
            _flashinfer_gated_delta_rule_mtp_bf16 = gated_delta_rule_mtp_bf16 # 新增：保存 bf16 版本函数句柄
            _flashinfer_gated_delta_rule_decode = gated_delta_rule_decode_pretranspose
            _flashinfer_gdn_available = (
                torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 9
            )
            if _flashinfer_gdn_available:
                logger.info("FlashInfer GDN kernels loaded successfully")
        except (ImportError, RuntimeError) as e:
            logger.warning(f"FlashInfer GDN kernels not available: {e}")
            _flashinfer_gdn_available = False
            _flashinfer_gated_delta_rule_decode = None
    return (
        _flashinfer_gdn_available,
        _flashinfer_chunk_gated_delta_rule,
        _flashinfer_gated_delta_rule_mtp,
        _flashinfer_gated_delta_rule_decode,
        _flashinfer_gated_delta_rule_mtp_bf16, # 新增：在返回元组中提供 bf16 版本
    )

test/registered/models_e2e/test_qwen35_fp4_mtp.py test-coverage

测试覆盖：新增 TestQwen35FP4MTPFlashInfer 类验证 FlashInfer 后端下 MTP 的 gsm8k 准确率，同时抽取公共参数和工具函数降低重复。

def _run_mtp_gsm8k(test_case):
    """工具函数：启动 GSM8K 评估并验证准确率与推测接受长度。"""
    args = SimpleNamespace(
        model=test_case.model,
        eval_name="gsm8k",
        num_shots=5,
        num_examples=200,
        max_tokens=16000,
        num_threads=128,
        repeat=1,
        temperature=0.6,
        top_p=0.95,
        top_k=20,
        base_url=test_case.base_url,
        host="http://127.0.0.1",
        port=int(test_case.base_url.split(":")[-1]),
    )
    metrics = run_eval(args)
    print(f"{metrics=}")
    test_case.assertGreaterEqual(
        metrics["score"], ACC_THRESHOLDS[test_case.model]["gsm8k"]
    )

    server_info = requests.get(test_case.base_url + "/server_info")
    avg_spec_accept_length = server_info.json()["internal_states"][0][
        "avg_spec_accept_length"
    ]
    print(f"{avg_spec_accept_length=}")
    test_case.assertGreater(avg_spec_accept_length, 3.3)


class TestQwen35FP4MTPFlashInfer(ReasoningTokenUsageMixin, CustomTestCase):
    """验证 FlashInfer 后端下的 MTP 推理准确率（GSM8K）。"""
    reasoning_parser_name = "qwen3"

    @classmethod
    def setUpClass(cls):
        cls.model = QWEN35_FP4_MODEL
        cls.base_url = DEFAULT_URL_FOR_TEST
        cls.init_reasoning_token_verifier()
        envs.SGLANG_ENABLE_SPEC_V2.set(True)
        cls.process = popen_launch_server(
            cls.model,
            cls.base_url,
            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
            other_args=MTP_BASE_ARGS
            + [
                "--linear-attn-decode-backend",
                "flashinfer", # 指定 FlashInfer 后端
                "--enforce-disable-flashinfer-allreduce-fusion", # 避免融合引入干扰
            ],
        )

    @classmethod
    def tearDownClass(cls):
        envs.SGLANG_ENABLE_SPEC_V2.set(False)
        kill_process_tree(cls.process.pid)

    def test_gsm8k(self):
        _run_mtp_gsm8k(self)

评论区精华

为 FlashInfer MTP 添加测试覆盖 测试

Fridge003 要求添加 FlashInfer MTP 的使用测试，并在 server_args.py 的 diff 上提出。YAMY1234 回应已添加测试类 TestQwen35FP4MTPFlashInfer 在 test_qwen35_fp4_mtp.py 中。

结论：测试已添加，通过添加 TestQwen35FP4MTPFlashInfer 类使用 --linear-attn-decode-backend flashinfer 参数启动服务器并运行 gsm8k 评估。 · 已解决

风险与影响

依赖更新：需要 FlashInfer >= 0.6.7，否则导入 bf16 状态 kernel 会直接失败。
新代码路径：_mtp_bf16_adapted 涉及张量重排和 dtype 转换，若 intermediate_states_buffer 形状不匹配可能导致 OOB 写入（上游 flashinfer#3147 已修复）。
测试覆盖：仅通过 gsm8k（200 样本）和 GPQA 验证，未覆盖 topk>1、不同状态维度或长上下文场景。
性能退化：基准测试显示 FlashInfer MTP 与 Triton 性能相近（1-5% 优势），无显著退化风险。

用户影响：SM100+ 用户无需手动指定 --linear-attn-decode-backend 即可在 MTP 场景下获得略有提升的性能。系统影响：FlashInfer 成为 SM100+ 且 mamba_ssm_dtype=bf16 时 MTP 解码的默认后端。团队影响：需同时维护 Triton 和 FlashInfer 两条 MTP 验证路径，但核心逻辑高度复用。

依赖 FlashInfer >=0.6.7 新 bf16 适配路径测试仅覆盖 gsm8k 单配置

关联 Issue

#2679 feat(gdn): add BF16 state kernel with MTP support beyond T>4 with intermediate caching.

#2810 feat(gdn): add padding index guard for bf16 decode kernel

#3145 Fix OOB crash in intermediate_states indexing for GDN decode MTP kernel

完整报告

报告：启用FlashInfer GDN MTP验证于SM100+ (Blackwell)

执行摘要

本PR在SM100+（Blackwell）GPU上启用了FlashInfer GDN的MTP验证，之前该路径抛出 NotImplementedError。通过导入bf16状态MTP kernel并移除配置guard，FlashInfer现在可以成为SM100+上的默认MTP后端。基准测试显示吞吐量和TPOT略优于Triton，准确率（GSM8K、GPQA）达标。变更涉及4个文件，核心改动约15行，配套测试增加了FlashInfer专用评估类。

功能与动机

“Enables FlashInfer GDN MTP (speculative decoding) verify on SM100+ (Blackwell) hardware, previously raising NotImplementedError. SM90 (Hopper) MTP was already supported; this PR completes SM100+ coverage.”

之前SM100+用户无法使用FlashInfer进行MTP验证，必须回退到Triton。完成SM100+覆盖后，用户可以在Blackwell硬件上获得统一且略有提升的推测解码性能。

实现拆解

导入bf16 MTP kernel（gdn_flashinfer.py）：在 _get_flashinfer_gdn_kernels 中新增从 flashinfer.gdn_kernels.gdn_decode_bf16_state 导入 gated_delta_rule_mtp 并重命名为 gated_delta_rule_mtp_bf16，在返回元组中暴露该函数。
添加bf16适配器（gdn_flashinfer.py）：新增内部函数 _mtp_bf16_adapted，将FlashInfer bf16状态MTP kernel包装成与现有verify接口兼容的形式（处理 intermediate_states_buffer 的切片和 A_log 的float转换）。target_verify 根据 ssm_states.dtype 选择调用fp32路径或bf16适配路径。
移除配置guard（server_args.py）：在 _handle_linear_attn_backend 中删除 and self.speculative_algorithm is None 条件，使SM100+在启用任意推测算法（包括MTP）时都能自动默认 linear_attn_decode_backend='flashinfer'。
更新后端路由注释（gdn_backend.py）：修正 verify_kernel 选择逻辑的注释，指出SM100+现在可以使用FlashInfer进行MTP验证（原来错误地声称不支持）。
测试配套（test_qwen35_fp4_mtp.py）：
- 将重复的启动参数抽取为 MTP_BASE_ARGS 常量。
- 提取 _run_mtp_gsm8k 工具函数，复用评估逻辑。
- 新增 TestQwen35FP4MTPFlashInfer 类，通过 --linear-attn-decode-backend flashinfer --enforce-disable-flashinfer-allreduce-fusion 启动服务器并运行gsm8k评估。
- 原有 TestQwen35FP4MTP 类保持不变，仍使用Triton后端。
- 测试注册时间从340s调整为740s，以适应两个测试类。

`python/sglang/srt/layers/attention/linear/kernels/gdn_flashinfer.py`

核心变更文件：导入 bf16 状态 MTP kernel，新增 _mtp_bf16_adapted 适配器函数，统一 SM90 和 SM100+ 的 verify 路径。

def _get_flashinfer_gdn_kernels():
    """Lazy import for FlashInfer GDN prefill, decode and verify (MTP) kernels.

    Returns (available, prefill_fn, mtp_fn, decode_fn, mtp_bf16_fn).
    """
    global _flashinfer_gdn_available, _flashinfer_chunk_gated_delta_rule, _flashinfer_gated_delta_rule_mtp, _flashinfer_gated_delta_rule_decode, _flashinfer_gated_delta_rule_mtp_bf16
    if _flashinfer_gdn_available is None:
        try:
            os.environ.setdefault("FLASHINFER_DISABLE_VERSION_CHECK", "1")

            from flashinfer.gdn_decode import (
                gated_delta_rule_decode_pretranspose,
                gated_delta_rule_mtp,
            )
            from flashinfer.gdn_kernels.gdn_decode_bf16_state import (
                gated_delta_rule_mtp as gated_delta_rule_mtp_bf16, # 新增：导入 bf16 状态 MTP kernel
            )
            from flashinfer.gdn_prefill import chunk_gated_delta_rule

            _flashinfer_chunk_gated_delta_rule = chunk_gated_delta_rule
            _flashinfer_gated_delta_rule_mtp = gated_delta_rule_mtp
            _flashinfer_gated_delta_rule_mtp_bf16 = gated_delta_rule_mtp_bf16 # 新增：保存 bf16 版本函数句柄
            _flashinfer_gated_delta_rule_decode = gated_delta_rule_decode_pretranspose
            _flashinfer_gdn_available = (
                torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 9
            )
            if _flashinfer_gdn_available:
                logger.info("FlashInfer GDN kernels loaded successfully")
        except (ImportError, RuntimeError) as e:
            logger.warning(f"FlashInfer GDN kernels not available: {e}")
            _flashinfer_gdn_available = False
            _flashinfer_gated_delta_rule_decode = None
    return (
        _flashinfer_gdn_available,
        _flashinfer_chunk_gated_delta_rule,
        _flashinfer_gated_delta_rule_mtp,
        _flashinfer_gated_delta_rule_decode,
        _flashinfer_gated_delta_rule_mtp_bf16, # 新增：在返回元组中提供 bf16 版本
    )

`test/registered/models_e2e/test_qwen35_fp4_mtp.py`

测试覆盖：新增 TestQwen35FP4MTPFlashInfer 类验证 FlashInfer 后端下 MTP 的 gsm8k 准确率，同时抽取公共参数和工具函数降低重复。

def _run_mtp_gsm8k(test_case):
    """工具函数：启动 GSM8K 评估并验证准确率与推测接受长度。"""
    args = SimpleNamespace(
        model=test_case.model,
        eval_name="gsm8k",
        num_shots=5,
        num_examples=200,
        max_tokens=16000,
        num_threads=128,
        repeat=1,
        temperature=0.6,
        top_p=0.95,
        top_k=20,
        base_url=test_case.base_url,
        host="http://127.0.0.1",
        port=int(test_case.base_url.split(":")[-1]),
    )
    metrics = run_eval(args)
    print(f"{metrics=}")
    test_case.assertGreaterEqual(
        metrics["score"], ACC_THRESHOLDS[test_case.model]["gsm8k"]
    )

    server_info = requests.get(test_case.base_url + "/server_info")
    avg_spec_accept_length = server_info.json()["internal_states"][0][
        "avg_spec_accept_length"
    ]
    print(f"{avg_spec_accept_length=}")
    test_case.assertGreater(avg_spec_accept_length, 3.3)


class TestQwen35FP4MTPFlashInfer(ReasoningTokenUsageMixin, CustomTestCase):
    """验证 FlashInfer 后端下的 MTP 推理准确率（GSM8K）。"""
    reasoning_parser_name = "qwen3"

    @classmethod
    def setUpClass(cls):
        cls.model = QWEN35_FP4_MODEL
        cls.base_url = DEFAULT_URL_FOR_TEST
        cls.init_reasoning_token_verifier()
        envs.SGLANG_ENABLE_SPEC_V2.set(True)
        cls.process = popen_launch_server(
            cls.model,
            cls.base_url,
            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
            other_args=MTP_BASE_ARGS
            + [
                "--linear-attn-decode-backend",
                "flashinfer", # 指定 FlashInfer 后端
                "--enforce-disable-flashinfer-allreduce-fusion", # 避免融合引入干扰
            ],
        )

    @classmethod
    def tearDownClass(cls):
        envs.SGLANG_ENABLE_SPEC_V2.set(False)
        kill_process_tree(cls.process.pid)

    def test_gsm8k(self):
        _run_mtp_gsm8k(self)

评论区精华

Fridge003: “Can we add a test for this usage. Maybe under test/registered/4-gpu-models/test_qwen35_fp4_flashinfer.py”
YAMY1234: “Added under test/registered/4-gpu-models/test_qwen35_models.py, thanks!”（实际添加在 test_qwen35_fp4_mtp.py 中）

审查者关心新功能的测试覆盖，作者快速响应并添加了专门的FlashInfer MTP测试类。

风险与影响

风险：需要 FlashInfer >= 0.6.7；bf16适配路径依赖上游bug修复（flashinfer#3147）；测试仅覆盖gsm8k单配置，不覆盖topk>1等场景。
影响：SM100+用户无需手动干预即可获得FlashInfer MTP加速；团队需维持两条MTP后端，但代码复用度高；性能提升约1-5%，无显著退化。

关联脉络

该PR完成了GDN MTP在Blackwell上的最后一环，与以下内容关联：

上游FlashInfer PR #2810（padding index guard）和 #3147（OOB crash fix）是功能正确性的基础。
关联Issue #2679 和 #2810 跟踪了bf16状态MTP kernel的设计与padding修复。
同仓库近期PR #26866（Support spec v2 tree drafting）和 #26424（topk=1 fastpath）都属于speculative decoding的持续优化链条。

#23273 [NVIDIA] [GDN] Enable FlashInfer MTP verify on SM100+ (Blackwell)

执行摘要

启用 FlashInfer GDN MTP 验证于 SM100+

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论