#43827 [DSv4] Adding TRTLLM gen attention kernel

原始 PR 作者 zyongye 合并时间 2026-06-04 22:35 文件变更 20 提交数 1 评论 21 代码增减 +2971 / -398

执行摘要

为 DSv4 添加 FlashInfer TRTLLM-gen 稀疏 MLA 后端

DeepSeek V4 需要高性能的稀疏 MLA attention 实现。现有的 FlashMLA 后端使用 UE8M0 paged 布局，而 FlashInfer 的 TRTLLM-gen 提供了不同的设计，支持连续的 BF16/FP8 cache 布局，可能在某些场景下提供更好的性能或兼容性。此外，希望将 @PerkzZheng 在 #42316 中的工作整合到 main 分支，并添加元数据缓存和单步调用等优化。

值得精读：该 PR 展示了一个复杂的注意力后端集成案例，包括后端注册、元数据缓存、单次 vs 分拆调用权衡、FP8 scale 处理。建议关注 flashinfer_sparse.py 的设计模式和 attention.py 中的 dtype 解析函数，可作为自定义后端的参考。

讨论亮点

单次调用 vs 分拆 decode/prefill：PerkzZheng 指出合并为单次调用导致 gridDim.x 填充到 maxSeqLenQ，可能启动过多 padding CTA 带来开销。作者回应“未观察到 perf 改进”，但未调整实现，PR 合并时仍保留单次调用（位置：flashinfer_sparse.py:311）。
topk indices 的 16B 对齐要求：PerkzZheng 要求添加注释说明 flashinfer mla kernel 需要 16B 对齐。已添加注释（位置：cache_utils.py:673）。
使用 fmin 的正确性：WoosukKwon 问是否应避免使用 fmin。作者同意修改（位置：sparse_attn_compress_cutedsl.py）。
移除 rebase 引入的过时代码：WoosukKwon 指出 attention.py 中残留了已移除的类和 torch op，需要清理。后续可能由单独 PR 处理（位置：attention.py）。

实现拆解

后端选择逻辑扩展：在 vllm/models/deepseek_v4/attention.py 中新增 _resolve_dsv4_backend 从 VllmConfig 读取 --attention-backend；修改 _select_v4_sparse_impl 支持新的 FLASHINFER_MLA_SPARSE_DSV4 枚举；新增 _resolve_dsv4_kv_cache_dtype 函数根据后端类型映射 KV cache dtype：FlashInfer 路径返回连续的 bf16 或 fp8_e4m3，FlashMLA 路径返回 UE8M0 uint8。
FlashInfer 后端实现：新增 vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py，定义 DeepseekV4FlashInferMLASparseBackend（继承 FlashMLA 的 sparse backend 以复用元数据构建器）和 DeepseekV4FlashInferMLASparseImpl（实现 init_layer_buffers 初始化 FP8 scale buffer 并预计算标量 BMM scale，以及 forward_mqa 调用 flashinfer_trtllm_batch_decode_sparse_mla_dsv4 合并执行 prefill/decode）。
C128A 元数据缓存与一次性稀疏索引构建：在 vllm/models/deepseek_v4/common/ops/cache_utils.py 中新增 build_flashinfer_mixed_sparse_indices 及其 Triton kernel，利用 FlashMLASparseMetadata 的 c128a_sparse_indices 缓存实现每个 step 运行一次，避免每层重复构造。
CuTeDSL 压缩器适配：修改 vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py，新增 SparseAttnCompressNormRopeStoreFullC4Kernel 类，增加 store_full_kv 和 store_full_fp8 标志；压缩器根据标志跳过 UE8M0 路径，直接写入连续的 BF16 或 per-tensor FP8 cache。
Compressor 分发逻辑修改：在 vllm/models/deepseek_v4/compressor.py 中，根据 kv_cache 的 dtype 判断是否为 full-cache 模式，并传递 store_full_kv、store_full_fp8 和 fp8_scale 给 cutedsl kernel。
测试覆盖：在 tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py 中新增 _call_full_cache_fp8_fused、_call_full_cache_bf16_fused 及参考实现，验证全 cache 路径的数值正确性；在 tests/kernels/test_compressor_kv_cache.py 中新增 test_cutedsl_full_cache_store。
文档：在 tools/pre_commit/generate_attention_backend_docs.py 中新增 V4 decode 后端分组和文档生成逻辑，将 _DSV4 后缀的后端单独展示。

文件	模块	状态	重要度
`vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py`	FlashInfer 后端	added	9.36
`vllm/models/deepseek_v4/attention.py`	注意力入口	modified	8.72
`tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py`	算子测试	modified	7.81
`vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py`	压缩器核函数	modified	7.7
`vllm/models/deepseek_v4/compressor.py`	压缩器	modified	7.29
`vllm/models/deepseek_v4/common/ops/cache_utils.py`	缓存工具	modified	7.02

关键符号

_get_flashinfer_dsv4_workspace DeepseekV4FlashInferMLASparseBackend.get_name DeepseekV4FlashInferMLASparseBackend.get_impl_cls DeepseekV4FlashInferMLASparseImpl.get_padded_num_q_heads DeepseekV4FlashInferMLASparseImpl.init_layer_buffers DeepseekV4FlashInferMLASparseImpl.forward_mqa _resolve_dsv4_backend _select_v4_sparse_impl _resolve_dsv4_kv_cache_dtype build_flashinfer_mixed_sparse_indices SparseAttnCompressNormRopeStoreFullC4Kernel.__init__

关键源码片段

vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py core-logic

新增的核心 FlashInfer TRTLLM-gen 后端实现，包含 workspace 管理、后端类、注意力实现类和 forward 逻辑。

# vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py
# DeepseekV4FlashInferMLASparseImpl：FlashInfer TRTLLM-gen 稀疏 MLA 实现类
# 继承自 FlashMLA 的 SparseMLAAttentionImpl 以复用 V4 稀疏索引管道
class DeepseekV4FlashInferMLASparseImpl(DeepseekV4SparseMLAAttentionImpl):
    backend_cls = DeepseekV4FlashInferMLASparseBackend
    @classmethod
    def get_padded_num_q_heads(cls, num_heads: int) -> int:
        # FP8 decode kernel 仅支持 h_q 为 64 或 128
        if num_heads > 128:
            raise ValueError(f"DeepseekV4 Flashinfer MLA Sparse does not support {num_heads} heads "
                             "(FP8 decode kernel requires h_q in {64, 128}).")
        return 64 if num_heads <= 64 else 128
    @classmethod
    def init_layer_buffers(cls, layer: "DeepseekV4MLAAttention") -> None:
        # 初始化 per-tensor FP8 scale 缓冲区并预计算标量 BMM scale
        if layer.kv_cache_torch_dtype != torch.float8_e4m3fn:
            return
        # TODO: 从 checkpoint 加载真实 per-tensor Q/KV scale
        fp8_q_scale = 1.0
        fp8_kv_scale = 1.0
        layer.register_buffer("_flashinfer_fp8_q_scale", torch.tensor([fp8_q_scale], dtype=torch.float32), persistent=False)
        layer.register_buffer("_flashinfer_fp8_q_scale_inv", torch.tensor([1.0 / fp8_q_scale], dtype=torch.float32), persistent=False)
        layer.register_buffer("_flashinfer_fp8_kv_scale", torch.tensor([fp8_kv_scale], dtype=torch.float32), persistent=False)
        # TRTLLM-gen 使用 Python 标量作为 scale 参数（区别于 1-elem tensor），路径不同
        layer._flashinfer_fp8_bmm1_scale = layer.scale * fp8_q_scale * fp8_kv_scale
        layer._flashinfer_fp8_bmm2_scale = fp8_kv_scale
    @classmethod
    def forward_mqa(cls, layer, q, kv, positions, output):
        # 该方法合并 decode/prefill 调用 flashinfer_trtllm_batch_decode_sparse_mla_dsv4
        pass

vllm/models/deepseek_v4/attention.py data-contract

修改后端选择函数和 KV cache dtype 解析，是连接用户配置与具体后端的入口。

# vllm/models/deepseek_v4/attention.py
# KV cache dtype 解析：根据后端类型返回适合的 dtype 格式
# FlashInfer V4 使用连续的 bf16/per-tensor FP8；FlashMLA 使用 UE8M0 paged uint8
def _resolve_dsv4_kv_cache_dtype(backend, kv_cache_dtype, cache_config):
    from vllm.v1.attention.backends.registry import AttentionBackendEnum
    if backend == AttentionBackendEnum.FLASHINFER_MLA_SPARSE_DSV4:
        if kv_cache_dtype.startswith("fp8"):
            return kv_cache_dtype, torch.float8_e4m3fn
        # auto / bfloat16 -> contiguous BF16 cache
        return kv_cache_dtype, torch.bfloat16
    # FlashMLA / ROCm Aiter: 仅支持 fp8 且使用 UE8M0 paged layout
    assert kv_cache_dtype.startswith("fp8"), (
        f"DeepseekV4 FlashMLA sparse backend only supports fp8 kv-cache, got {kv_cache_dtype}"
    )
    if kv_cache_dtype != "fp8_ds_mla":
        if cache_config is not None:
            cache_config.cache_dtype = "fp8_ds_mla"
        kv_cache_dtype = "fp8_ds_mla"
        logger.info_once("Using DeepSeek's fp8_ds_mla KV cache format.")
    return kv_cache_dtype, torch.uint8

评论区精华

单次调用 vs 分拆 decode/prefill 性能

PerkzZheng 指出合并为单次调用导致 gridDim.x 填充到 maxSeqLenQ，可能启动过多 padding CTA 带来开关开销。作者回应“未观察到性能改进”，但保留单次调用。

结论：未调整，PR 合并时仍使用单次调用，后续可进一步优化。 · 待处理

topk indices 的 16B 对齐要求 正确性

PerkzZheng 要求添加注释说明 flashinfer mla kernel 需要 topk indices 16B 对齐。

结论：已添加注释。 · 已解决

使用 fmin 的正确性 正确性

WoosukKwon 问是否应该避免使用 fmin。作者同意修改。

结论：已修改。 · 已解决

移除 rebase 引入的过时代码 refactor

WoosukKwon 指出 attention.py 中残留了已移除的类和 torch op，需要清理。

结论：未明确回复，可能由单独 PR 处理。 · 待处理

风险与影响

核心注意力路径变更：新后端修改了 DeepSeek V4 的注意力调度路径，可能影响所有使用 DSv4 模型的推理。
FP8 scale 硬编码：init_layer_buffers 中 FP8 scale 暂时硬编码为 1.0，待加载真实 checkpoint 值（见 TODO），可能导致精度下降。
单次调用性能退化风险：PerkzZheng 指出单次调用相比分拆调用可能引入额外 CTA 开销，在某些批处理场景下可能降低吞吐。
依赖外部 TRTLLM 算子：后端依赖 flashinfer_trtllm_batch_decode_sparse_mla_dsv4，需要确保编译包含该 op，否则运行时出错。
跨平台限制：主要针对 NVIDIA GPU（依赖 cutedsl 和 FlashInfer），ROCm 路径仍然使用 Aiter 后端，但新后端未在 AMD 上验证。

对用户：可通过 --attention-backend FLASHINFER_MLA_SPARSE_DSV4 选择新后端，获得连续的 KV cache 布局（可能优化内存访问）。对系统：增加了一个可选的注意力实现路径，不影响现有默认 FlashMLA 路径。对团队：需要维护两个后端，增加测试和文档负担。影响程度中等，因为新后端默认不启用。

核心注意力路径变更 FP8 scale 硬编码单次调用可能带来性能退化依赖外部 TRTLLM 算子跨平台验证不足

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：为 DSv4 添加 FlashInfer TRTLLM-gen 稀疏 MLA 后端
推荐动作：值得精读：该 PR 展示了一个复杂的注意力后端集成案例，包括后端注册、元数据缓存、单次 vs 分拆调用权衡、FP8 scale 处理。建议关注 flashinfer_sparse.py 的设计模式和 attention.py 中的 dtype 解析函数，可作为自定义后端的参考。

功能与动机

实现拆解

后端选择逻辑扩展：在 vllm/models/deepseek_v4/attention.py 中新增 _resolve_dsv4_backend 从 VllmConfig 读取 --attention-backend；修改 _select_v4_sparse_impl 支持新的 FLASHINFER_MLA_SPARSE_DSV4 枚举；新增 _resolve_dsv4_kv_cache_dtype 函数根据后端类型映射 KV cache dtype：FlashInfer 路径返回连续的 bf16 或 fp8_e4m3，FlashMLA 路径返回 UE8M0 uint8。
FlashInfer 后端实现：新增 vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py，定义 DeepseekV4FlashInferMLASparseBackend（继承 FlashMLA 的 sparse backend 以复用元数据构建器）和 DeepseekV4FlashInferMLASparseImpl（实现 init_layer_buffers 初始化 FP8 scale buffer 并预计算标量 BMM scale，以及 forward_mqa 调用 flashinfer_trtllm_batch_decode_sparse_mla_dsv4 合并执行 prefill/decode）。
C128A 元数据缓存与一次性稀疏索引构建：在 vllm/models/deepseek_v4/common/ops/cache_utils.py 中新增 build_flashinfer_mixed_sparse_indices 及其 Triton kernel，利用 FlashMLASparseMetadata 的 c128a_sparse_indices 缓存实现每个 step 运行一次，避免每层重复构造。
CuTeDSL 压缩器适配：修改 vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py，新增 SparseAttnCompressNormRopeStoreFullC4Kernel 类，增加 store_full_kv 和 store_full_fp8 标志；压缩器根据标志跳过 UE8M0 路径，直接写入连续的 BF16 或 per-tensor FP8 cache。
Compressor 分发逻辑修改：在 vllm/models/deepseek_v4/compressor.py 中，根据 kv_cache 的 dtype 判断是否为 full-cache 模式，并传递 store_full_kv、store_full_fp8 和 fp8_scale 给 cutedsl kernel。
测试覆盖：在 tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py 中新增 _call_full_cache_fp8_fused、_call_full_cache_bf16_fused 及参考实现，验证全 cache 路径的数值正确性；在 tests/kernels/test_compressor_kv_cache.py 中新增 test_cutedsl_full_cache_store。
文档：在 tools/pre_commit/generate_attention_backend_docs.py 中新增 V4 decode 后端分组和文档生成逻辑，将 _DSV4 后缀的后端单独展示。

关键文件：

vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py（模块 FlashInfer 后端；类别 source；类型 core-logic；符号 _get_flashinfer_dsv4_workspace, DeepseekV4FlashInferMLASparseBackend, get_name, get_impl_cls）: 新增的核心 FlashInfer TRTLLM-gen 后端实现，包含 workspace 管理、后端类、注意力实现类和 forward 逻辑。
vllm/models/deepseek_v4/attention.py（模块注意力入口；类别 source；类型 data-contract；符号 _resolve_dsv4_backend, _select_v4_sparse_impl, _resolve_dsv4_kv_cache_dtype）: 修改后端选择函数和 KV cache dtype 解析，是连接用户配置与具体后端的入口。
tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py（模块算子测试；类别 test；类型 test-coverage；符号 _full_cache_fp8_op_available, _full_cache_bf16_op_available, _call_full_cache_fp8_fused, _call_full_cache_bf16_fused）: 新增 full-cache 路径的数值测试，验证 FP8 和 BF16 全 cache 插入的正确性。
vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py（模块压缩器核函数；类别 infra；类型 infrastructure；符号 SparseAttnCompressC128Block8Kernel, SparseAttnCompressNormRopeStoreFullC4Kernel, compile, init）: 修改 CuTeDSL 压缩器，新增支持全 cache 写入的 kernel 类，是性能关键路径。
vllm/models/deepseek_v4/compressor.py（模块压缩器；类别 source；类型 data-contract）: 修改 DeepseekCompressor 的 get_kv_cache_spec 和 forward 方法，传递 full-cache 参数。
vllm/models/deepseek_v4/common/ops/cache_utils.py（模块缓存工具；类别 infra；类型 infrastructure；符号 build_flashinfer_mixed_sparse_indices, _build_flashinfer_mixed_sparse_indices_kernel）: 新增 build_flashinfer_mixed_sparse_indices 及核函数，实现一次性稀疏索引构建。

关键符号：_get_flashinfer_dsv4_workspace, DeepseekV4FlashInferMLASparseBackend.get_name, DeepseekV4FlashInferMLASparseBackend.get_impl_cls, DeepseekV4FlashInferMLASparseImpl.get_padded_num_q_heads, DeepseekV4FlashInferMLASparseImpl.init_layer_buffers, DeepseekV4FlashInferMLASparseImpl.forward_mqa, _resolve_dsv4_backend, _select_v4_sparse_impl, _resolve_dsv4_kv_cache_dtype, build_flashinfer_mixed_sparse_indices, SparseAttnCompressNormRopeStoreFullC4Kernel.init

关键源码片段

`vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py`

新增的核心 FlashInfer TRTLLM-gen 后端实现，包含 workspace 管理、后端类、注意力实现类和 forward 逻辑。

# vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py
# DeepseekV4FlashInferMLASparseImpl：FlashInfer TRTLLM-gen 稀疏 MLA 实现类
# 继承自 FlashMLA 的 SparseMLAAttentionImpl 以复用 V4 稀疏索引管道
class DeepseekV4FlashInferMLASparseImpl(DeepseekV4SparseMLAAttentionImpl):
    backend_cls = DeepseekV4FlashInferMLASparseBackend
    @classmethod
    def get_padded_num_q_heads(cls, num_heads: int) -> int:
        # FP8 decode kernel 仅支持 h_q 为 64 或 128
        if num_heads > 128:
            raise ValueError(f"DeepseekV4 Flashinfer MLA Sparse does not support {num_heads} heads "
                             "(FP8 decode kernel requires h_q in {64, 128}).")
        return 64 if num_heads <= 64 else 128
    @classmethod
    def init_layer_buffers(cls, layer: "DeepseekV4MLAAttention") -> None:
        # 初始化 per-tensor FP8 scale 缓冲区并预计算标量 BMM scale
        if layer.kv_cache_torch_dtype != torch.float8_e4m3fn:
            return
        # TODO: 从 checkpoint 加载真实 per-tensor Q/KV scale
        fp8_q_scale = 1.0
        fp8_kv_scale = 1.0
        layer.register_buffer("_flashinfer_fp8_q_scale", torch.tensor([fp8_q_scale], dtype=torch.float32), persistent=False)
        layer.register_buffer("_flashinfer_fp8_q_scale_inv", torch.tensor([1.0 / fp8_q_scale], dtype=torch.float32), persistent=False)
        layer.register_buffer("_flashinfer_fp8_kv_scale", torch.tensor([fp8_kv_scale], dtype=torch.float32), persistent=False)
        # TRTLLM-gen 使用 Python 标量作为 scale 参数（区别于 1-elem tensor），路径不同
        layer._flashinfer_fp8_bmm1_scale = layer.scale * fp8_q_scale * fp8_kv_scale
        layer._flashinfer_fp8_bmm2_scale = fp8_kv_scale
    @classmethod
    def forward_mqa(cls, layer, q, kv, positions, output):
        # 该方法合并 decode/prefill 调用 flashinfer_trtllm_batch_decode_sparse_mla_dsv4
        pass

`vllm/models/deepseek_v4/attention.py`

修改后端选择函数和 KV cache dtype 解析，是连接用户配置与具体后端的入口。

# vllm/models/deepseek_v4/attention.py
# KV cache dtype 解析：根据后端类型返回适合的 dtype 格式
# FlashInfer V4 使用连续的 bf16/per-tensor FP8；FlashMLA 使用 UE8M0 paged uint8
def _resolve_dsv4_kv_cache_dtype(backend, kv_cache_dtype, cache_config):
    from vllm.v1.attention.backends.registry import AttentionBackendEnum
    if backend == AttentionBackendEnum.FLASHINFER_MLA_SPARSE_DSV4:
        if kv_cache_dtype.startswith("fp8"):
            return kv_cache_dtype, torch.float8_e4m3fn
        # auto / bfloat16 -> contiguous BF16 cache
        return kv_cache_dtype, torch.bfloat16
    # FlashMLA / ROCm Aiter: 仅支持 fp8 且使用 UE8M0 paged layout
    assert kv_cache_dtype.startswith("fp8"), (
        f"DeepseekV4 FlashMLA sparse backend only supports fp8 kv-cache, got {kv_cache_dtype}"
    )
    if kv_cache_dtype != "fp8_ds_mla":
        if cache_config is not None:
            cache_config.cache_dtype = "fp8_ds_mla"
        kv_cache_dtype = "fp8_ds_mla"
        logger.info_once("Using DeepSeek's fp8_ds_mla KV cache format.")
    return kv_cache_dtype, torch.uint8

评论区精华

单次调用 vs 分拆 decode/prefill：PerkzZheng 指出合并为单次调用导致 gridDim.x 填充到 maxSeqLenQ，可能启动过多 padding CTA 带来开销。作者回应“未观察到 perf 改进”，但未调整实现，PR 合并时仍保留单次调用（位置：flashinfer_sparse.py:311）。
topk indices 的 16B 对齐要求：PerkzZheng 要求添加注释说明 flashinfer mla kernel 需要 16B 对齐。已添加注释（位置：cache_utils.py:673）。
使用 fmin 的正确性：WoosukKwon 问是否应避免使用 fmin。作者同意修改（位置：sparse_attn_compress_cutedsl.py）。
移除 rebase 引入的过时代码：WoosukKwon 指出 attention.py 中残留了已移除的类和 torch op，需要清理。后续可能由单独 PR 处理（位置：attention.py）。

单次调用 vs 分拆 decode/prefill (performance): 未调整，PR 合并时仍使用单次调用，后续可进一步优化。
topk indices 的 16B 对齐要求 (correctness): 已添加注释。
使用 fmin 的正确性 (correctness): 已修改。
移除 rebase 引入的过时代码 (refactor): 未明确回复，可能由单独 PR 处理。

风险与影响

风险：
1. 核心注意力路径变更：新后端修改了 DeepSeek V4 的注意力调度路径，可能影响所有使用 DSv4 模型的推理。
2. FP8 scale 硬编码：init_layer_buffers 中 FP8 scale 暂时硬编码为 1.0，待加载真实 checkpoint 值（见 TODO），可能导致精度下降。
3. 单次调用性能退化风险：PerkzZheng 指出单次调用相比分拆调用可能引入额外 CTA 开销，在某些批处理场景下可能降低吞吐。
4. 依赖外部 TRTLLM 算子：后端依赖 flashinfer_trtllm_batch_decode_sparse_mla_dsv4，需要确保编译包含该 op，否则运行时出错。
5. 跨平台限制：主要针对 NVIDIA GPU（依赖 cutedsl 和 FlashInfer），ROCm 路径仍然使用 Aiter 后端，但新后端未在 AMD 上验证。
  - 影响：对用户：可通过 --attention-backend FLASHINFER_MLA_SPARSE_DSV4 选择新后端，获得连续的 KV cache 布局（可能优化内存访问）。对系统：增加了一个可选的注意力实现路径，不影响现有默认 FlashMLA 路径。对团队：需要维护两个后端，增加测试和文档负担。影响程度中等，因为新后端默认不启用。
  - 风险标记：核心注意力路径变更, FP8 scale 硬编码, 单次调用可能带来性能退化, 依赖外部 TRTLLM 算子, 跨平台验证不足

关联脉络

PR #42316 [DSv4] Adding TRTLLM gen attention kernel (original): 本 PR 是对 #42316 的 rebase 和扩展，保留了大部分原有修改并新增 C128A 缓存和单步调用。
PR #44246 [Refactor] Remove stale DSv4 attention classes: WoosukKwon 的清理 PR，与 attention.py 中移除过期代码相关。

#43827 [DSv4] Adding TRTLLM gen attention kernel

执行摘要

为 DSv4 添加 FlashInfer TRTLLM-gen 稀疏 MLA 后端

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论