← 返回仓库详情

#38479 [Attention Backend] TurboQuant: 2-bit KV cache compression with 4x capacity

vllm-project/vllm · 作者 vibhavagarwal5 · 合并时间 2026-04-15 10:57

分析状态已生成

文件变更 27提交数 10 · 评论 181

代码增减 +2963 / -3

quantization attention feature v1 nvidia

执行摘要

新增 TurboQuant 注意力后端，通过 2-bit KV 缓存压缩实现最高 4.9 倍容量提升。

解决KV缓存内存占用过高问题，通过在线量化压缩提升缓存容量和内存带宽效率，支持更长上下文或更高吞吐。PR body指出“压缩缓存减少内存带宽压力”，并提供了具体性能数据，如k8v4预设可在某些场景达到100%基线吞吐。

该PR值得精读，尤其关注以下设计决策：

独立后端设计：权衡了集成复杂度与性能优化，为窄用例提供高性能路径。
WHT旋转替代随机正交矩阵：利用Hadamard矩阵的自逆性和结构，降低计算开销并支持未来内核融合。
融合Triton内核：将多个量化步骤合并，减少内核启动，是性能关键优化。
不对称K/V预设：基于社区数据调整位分配，体现数据驱动的压缩策略。
建议在合并前，补充端到端测试和文档，明确支持范围。

讨论亮点

设计决策：独立后端 vs 集成到现有后端
mgoin 最初期望将TurboQuant集成到现有Triton注意力后端，但经过 #sig-quantization 会议讨论，共识是采用独立 TurboQuantAttentionBackend 以追求窄用例峰值性能并隔离开发风险。
结论：接受独立后端方案，作为临时措施，未来可能整合。
质量修复与不对称K/V分配
早期测试显示 tq3 预设GSM8K准确率为0%，原因为值量化精度不足。讨论中（MidasMining、varjoranta、Alberto-Codes）发现值（V）是推理任务精度瓶颈，而非键（K）。
决策：将 value_quant_bits 默认改为8（FP8），并引入不对称预设如 turboquant_k3v4_nc（K 3-bit, V 4-bit），在社区数据支持下平衡压缩与质量。
技术缺陷与修复
gemini-code-assist[bot] 指出3-bit解包逻辑在跨字节边界时错误，以及FP8回退转换不准确。
作者通过简化实现、移除有问题的CUDA代码、专注Triton路径解决，并在后续提交中修复。
性能优化与代码清理
lishunyang12 提出多项优化建议：消除 .item() 导致的CPU-GPU同步、修复流重叠方向、缓存中间缓冲区以避免重复分配、改进桶化搜索逻辑。
作者响应并实施部分更改，如移除个人开发脚本、添加预填充-解码分割逻辑。
兼容性与范围界定
讨论中识别混合模型（如Gemma 4的滑动窗口+全注意力）的页面大小对齐问题，决定将本PR范围限定为全注意力和均匀滑动窗口模型，复杂架构留待后续PR处理。

实现拆解

1. 配置与预设定义

文件: vllm/model_executor/layers/quantization/turboquant/config.py
关键符号: TurboQuantConfig、TQ_PRESETS
变更: 新增配置类，定义4个命名预设，每个预设包含key_quant_bits、value_quant_bits、norm_correction参数，并通过属性计算槽位大小和压缩比。
原因: 为用户提供简单、预验证的压缩选项，避免复杂环境变量配置。
影响: 作为整个TurboQuant系统的数据契约，影响后续量化逻辑和内核参数。

2. 注意力后端集成

文件: vllm/v1/attention/backends/turboquant_attn.py
关键符号: TurboQuantAttentionBackend、_build_hadamard、_CONTINUATION_DECODE_THRESHOLD
变更: 实现新注意力后端类，支持解码器注意力类型，处理预填充（使用FlashAttention）、解码（使用Triton内核）和续填（阈值控制）路径。
原因: 将TurboQuant作为独立后端集成，隔离开发风险，优化特定用例性能。
影响: 扩展vLLM注意力后端生态系统，用户可通过--kv-cache-dtype启用。

3. 量化核心逻辑

文件: vllm/model_executor/layers/quantization/turboquant/centroids.py
关键符号: solve_lloyd_max、get_centroids
变更: 实现Lloyd-Max最优标量量化器，使用梯形数值积分替代scipy依赖，生成高斯分布下的质心。
原因: 提供轻量级、无外部依赖的质心计算，确保跨环境可复现性。
影响: 键量化的质量基础，影响压缩准确性和最终模型输出。

4. Triton内核优化

文件: vllm/v1/attention/ops/triton_turboquant_store.py、vllm/v1/attention/ops/triton_turboquant_decode.py
关键符号: _tq_fused_store_mse、_tq_decode_stage1、_use_fp8_e4b15
变更: 新增融合存储内核（将桶化、质心收集、残差范数和值量化合并）和解码内核（分块KV注意力评分），自动检测GPU架构选择FP8格式。
原因: 减少内核启动开销，提升解码吞吐（+18-21%）和降低预填充TTFT（-10-12%），同时支持Ampere/Hopper兼容性。
影响: 直接决定运行时性能和跨设备兼容性。

5. 系统集成与测试

文件: vllm/model_executor/layers/attention/attention.py、vllm/engine/arg_utils.py、tests/quantization/test_turboquant.py
关键符号: _init_turboquant_buffers、kv_cache_dtype参数处理、TestTurboQuantConfig
变更: 在注意力层初始化TurboQuant缓冲区，扩展引擎参数解析支持新缓存类型，添加单元测试验证配置正确性和边界情况。
原因: 确保TurboQuant无缝集成到现有模型执行和部署流程，并通过测试保证质量。
影响: 影响模型加载、推理流水线和持续集成验证。

文件	模块	状态	重要度
`vllm/model_executor/layers/quantization/turboquant/config.py`	量化配置	added	9.17
`vllm/v1/attention/backends/turboquant_attn.py`	注意力后端	added	9.08
`tests/quantization/test_turboquant.py`	测试	added	7.48

vllm/model_executor/layers/quantization/turboquant/config.py data-contract

TurboQuant 的核心配置定义，包含命名预设和 TurboQuantConfig 类，作为整个量化系统的数据契约，直接影响压缩比和兼容性。

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
"""TurboQuant KV缓存量化配置文件。"""

import math
from dataclasses import dataclass

# 命名TQ预设：每个映射到固定的配置参数。
# key_quant_bits: 8 = FP8键, 3-4 = MSE (Lloyd-Max) 量化键。
# value_quant_bits: 3-4 = 均匀量化值。
TQ_PRESETS: dict[str, dict] = {
    "turboquant_k8v4": {
        "key_quant_bits": 8,
        "value_quant_bits": 4,
        "norm_correction": False,
    },
    "turboquant_4bit_nc": {
        "key_quant_bits": 4,
        "value_quant_bits": 4,
        "norm_correction": True,
    },
    "turboquant_k3v4_nc": {
        "key_quant_bits": 3,
        "value_quant_bits": 4,
        "norm_correction": True,
    },
    "turboquant_3bit_nc": {
        "key_quant_bits": 3,
        "value_quant_bits": 3,
        "norm_correction": True,
    },
}

@dataclass
class TurboQuantConfig:
    """TurboQuant KV缓存量化配置类。

    使用PolarQuant（WHT旋转 + Lloyd-Max标量量化）处理键，
    均匀量化处理值。QJL（量化残差层）被故意省略——
    社区共识（5+独立组）发现它会通过softmax放大方差，损害注意力质量。
    """
    head_dim: int = 128 # 注意力头维度
    key_quant_bits: int = 3 # 键量化位数：3-4 = MSE键, 8 = FP8键
    value_quant_bits: int = 4 # 值量化位数：3-4 = 均匀量化值
    seed: int = 42 # 随机种子
    norm_correction: bool = False # 是否进行范数校正

    @property
    def key_fp8(self) -> bool:
        """是否为FP8键模式（无旋转/量化）。"""
        return self.key_quant_bits == 8

    @property
    def mse_bits(self) -> int:
        """MSE量化器位宽，决定质心数量（2^mse_bits）。"""
        if self.key_fp8:
            # FP8模式下，回退到值量化位数，质心仍用于续填反量化和解码内核参数
            return self.value_quant_bits
        return self.key_quant_bits

    @property
    def n_centroids(self) -> int:
        """质心数量。"""
        return 2 ** self.mse_bits

    @property
    def key_packed_size(self) -> int:
        """单个键向量的打包字节数。"""
        if self.key_fp8:
            return self.head_dim # 每个元素1字节
        mse_bytes = math.ceil(self.head_dim * self.key_mse_bits / 8)
        norm_bytes = 2 # vec_norm使用float16
        return mse_bytes + norm_bytes

    @property
    def value_packed_size(self) -> int:
        """单个值向量的打包字节数。"""
        data_bytes = math.ceil(self.head_dim * self.value_quant_bits / 8)
        return data_bytes + 4 # +2 scale(fp16) +2 zero(fp16)

    @property
    def slot_size(self) -> int:
        """每个头每个位置的总打包字节数（键+值）。"""
        return self.key_packed_size + self.value_packed_size

vllm/v1/attention/backends/turboquant_attn.py core-logic

TurboQuant 注意力后端的主实现，集成到 vLLM v1 注意力系统，处理预填充、解码和续填路径，是性能和质量的核心。

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
"""TurboQuant注意力后端实现。

预填充：在未压缩K/V上执行标准缩放点积注意力，然后量化K并存储K+V到组合缓存槽。
解码：从压缩缓存计算TQ注意力分数，解包FP16值，进行softmax和加权求和。
"""

import functools
import math
import torch
import torch.nn.functional as F
from vllm.config import get_current_vllm_config
from vllm.v1.attention.backend import AttentionBackend, AttentionImpl
from vllm.v1.attention.ops.triton_turboquant_decode import triton_turboquant_decode_attention
from vllm.v1.attention.ops.triton_turboquant_store import triton_turboquant_store

# 续填解码阈值：当续填块长度≤此值时，直接使用TQ解码内核，避免全反量化开销。
_CONTINUATION_DECODE_THRESHOLD = 128

def _build_hadamard(d: int, device_str: str) -> torch.Tensor:
    """构建正交Hadamard矩阵（Sylvester构造），按(d, 设备)缓存。

    预计算D×D矩阵启用基于矩阵乘的WHT——单个cuBLAS GEMM代替log2(D)次蝶形内核启动。
    对于D=128，大小约64KB。
    """
    return _build_hadamard_cached(d, str(torch.device(device_str)))

@functools.cache
def _build_hadamard_cached(d: int, device_str: str) -> torch.Tensor:
    """Hadamard矩阵的缓存版本，确保每个(d, 设备)只计算一次。"""
    H = torch.tensor([[1.0]])
    while H.shape[0] < d:
        H = torch.cat([torch.cat([H, H], 1), torch.cat([H, -H], 1)], 0)
    return (H / math.sqrt(d)).to(torch.device(device_str))

class TurboQuantAttentionBackend(AttentionBackend):
    """使用TurboQuant KV缓存压缩的注意力后端。"""
    supported_kv_cache_dtypes = [
        "turboquant_k8v4",
        "turboquant_4bit_nc",
        "turboquant_k3v4_nc",
        "turboquant_3bit_nc",
    ]

    @staticmethod
    def get_name() -> str:
        return "TURBOQUANT"

    @classmethod
    def supports_attn_type(cls, attn_type: str) -> bool:
        return attn_type == "DECODER" # 仅支持解码器注意力类型

    @staticmethod
    def get_impl_cls() -> type["TurboQuantAttentionImpl"]:
        return TurboQuantAttentionImpl

class TurboQuantAttentionImpl(AttentionImpl):
    """TurboQuant注意力实现，处理具体前向逻辑。"""
    def forward(
        self,
        query: torch.Tensor,
        key: torch.Tensor,
        value: torch.Tensor,
        attn_metadata: "AttentionMetadata",
    ) -> torch.Tensor:
        """前向传播，根据元数据区分预填充和解码路径。"""
        # 分割解码和预填充请求
        decode_meta, prefill_meta = split_decodes_and_prefills(attn_metadata)
        output = torch.empty_like(query)

        if decode_meta is not None:
            # 解码路径：使用Triton TQ解码内核
            output = triton_turboquant_decode_attention(
                query, key, value, decode_meta, self.layer
            )
        if prefill_meta is not None:
            # 预填充路径：使用FlashAttention或标准SDPA，然后存储量化KV
            if prefill_meta.is_continuation and prefill_meta.q_len <= _CONTINUATION_DECODE_THRESHOLD:
                # 小续填块直接走解码内核
                output = triton_turboquant_decode_attention(
                    query, key, value, prefill_meta, self.layer
                )
            else:
                # 大续填或初始预填充，使用FlashAttention
                if _HAS_FLASH_ATTN:
                    output = flash_attn_varlen_func(query, key, value, ...)
                else:
                    output = F.scaled_dot_product_attention(query, key, value)
                # 存储量化KV到缓存
                triton_turboquant_store(key, value, self.layer, ...)
        return output

关键符号

TurboQuantConfig.__init__ TurboQuantConfig.key_fp8 _build_hadamard _build_hadamard_cached solve_lloyd_max get_centroids TurboQuantAttentionBackend.get_name TurboQuantAttentionImpl.forward _tq_fused_store_mse _tq_decode_stage1 _init_turboquant_buffers

评论区精华

3-bit 解包逻辑错误 正确性

gemini-code-assist[bot] 指出 3-bit 解包逻辑在值跨字节边界时不正确，错误地移位了整个下一个字节而非仅溢出位，可能导致数值错误。

结论：作者在后续提交中通过简化实现和专注 Triton 路径修复此问题。 · 已解决

独立后端设计决策 设计

mgoin 最初期望将 TurboQuant 集成到现有 Triton 注意力后端，但经过社区讨论，共识是采用独立 TurboQuantAttentionBackend 以隔离开发风险并优化窄用例性能。

结论：接受独立后端方案作为临时措施，未来可能整合。 · 已采纳

质量修复与不对称 K/V 分配 正确性

早期测试显示 tq3 预设 GSM8K 准确率 0%，社区分析发现值量化精度是瓶颈，导致默认值改为 FP8 并引入不对称预设（如 K3V4）。

结论：实施修复，将 value_quant_bits 默认改为 8，并添加不对称预设以平衡压缩与质量。 · 已解决

性能优化建议 性能

lishunyang12 提出多项优化：消除 .item() 同步、修复流重叠方向、缓存缓冲区、改进桶化搜索，以降低开销。

结论：作者响应并实施部分更改，如添加预填充 - 解码分割逻辑，但部分优化（如流重叠）被禁用或留待后续。 · partially resolved

风险与影响

回归风险：
- 核心路径变更（vllm/v1/attention/backends/turboquant_attn.py）可能影响现有注意力调度逻辑，尤其是在混合预填充-解码批次中，若分割逻辑有误可能导致性能下降或错误。
- Triton内核（triton_turboquant_decode.py）中的 BLOCK_KV = 4 设置未经充分调优，可能低于最佳内存合并效率，影响解码吞吐。
性能风险：
- 量化开销：尽管融合内核减少启动，但额外计算（WHT旋转、Lloyd-Max反量化）可能增加短序列场景的延迟，性能数据显示解码吞吐降至基线的68-79%。
- 内存管理：_ensure_on_device 方法可能使缓冲区脱离 register_buffer 跟踪，影响模型迁移和状态字典保存。
兼容性风险：
- GPU架构：FP8格式自动检测（_use_fp8_e4b15）覆盖Ampere/Hopper，但未测试更旧架构（如Turing），可能导致运行时错误。
- 模型类型：明确排除混合注意力-Mamba模型（如Qwen3.5），使用这些模型时可能遇到页面大小不匹配或非法内存访问。
安全风险：
- 低，量化过程不涉及敏感数据，但内核中的整数溢出或边界检查不足可能导致未定义行为。
测试覆盖不足：
- 单元测试（test_turboquant.py）主要覆盖配置和质心计算，缺少端到端推理测试和对WHT旋转、内核round-trip的验证，可能遗漏集成问题。

用户影响：
- 正面：用户可通过 --kv-cache-dtype 参数选择TurboQuant预设，在不修改模型权重下获得2.6-4.9倍KV缓存压缩，适合内存受限或长上下文场景。
- 负面：需要学习新配置选项，且部分模型（混合架构）不受支持；性能权衡需用户根据用例评估。
系统影响：
- 内存：显著减少KV缓存内存占用，提升单GPU可处理序列长度或批量大小。
- 计算：增加量化/反量化开销，可能降低吞吐，尤其在短序列解码场景。
- 架构：引入新注意力后端，扩展vLLM模块化设计，但可能增加维护复杂性。
团队影响：
- 开发：提供量化KV缓存的新范式，促进后续压缩特性开发；代码规模较大（27文件，+2963/-3行），需团队熟悉新模块。
- 运维：依赖Triton JIT编译，可能影响部署环境；需监控性能回归和质量指标。

核心路径变更缺少测试覆盖性能回归风险混合模型兼容性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：新增TurboQuant注意力后端，通过2-bit KV缓存压缩实现最高4.9倍容量提升。
推荐动作：该PR值得精读，尤其关注以下设计决策：
1. 独立后端设计：权衡了集成复杂度与性能优化，为窄用例提供高性能路径。
2. WHT旋转替代随机正交矩阵：利用Hadamard矩阵的自逆性和结构，降低计算开销并支持未来内核融合。
3. 融合Triton内核：将多个量化步骤合并，减少内核启动，是性能关键优化。
4. 不对称K/V预设：基于社区数据调整位分配，体现数据驱动的压缩策略。
  建议在合并前，补充端到端测试和文档，明确支持范围。

功能与动机

实现拆解

1. 配置与预设定义

文件: vllm/model_executor/layers/quantization/turboquant/config.py
关键符号: TurboQuantConfig、TQ_PRESETS
变更: 新增配置类，定义4个命名预设，每个预设包含key_quant_bits、value_quant_bits、norm_correction参数，并通过属性计算槽位大小和压缩比。
原因: 为用户提供简单、预验证的压缩选项，避免复杂环境变量配置。
影响: 作为整个TurboQuant系统的数据契约，影响后续量化逻辑和内核参数。

2. 注意力后端集成

文件: vllm/v1/attention/backends/turboquant_attn.py
关键符号: TurboQuantAttentionBackend、_build_hadamard、_CONTINUATION_DECODE_THRESHOLD
变更: 实现新注意力后端类，支持解码器注意力类型，处理预填充（使用FlashAttention）、解码（使用Triton内核）和续填（阈值控制）路径。
原因: 将TurboQuant作为独立后端集成，隔离开发风险，优化特定用例性能。
影响: 扩展vLLM注意力后端生态系统，用户可通过--kv-cache-dtype启用。

3. 量化核心逻辑

文件: vllm/model_executor/layers/quantization/turboquant/centroids.py
关键符号: solve_lloyd_max、get_centroids
变更: 实现Lloyd-Max最优标量量化器，使用梯形数值积分替代scipy依赖，生成高斯分布下的质心。
原因: 提供轻量级、无外部依赖的质心计算，确保跨环境可复现性。
影响: 键量化的质量基础，影响压缩准确性和最终模型输出。

4. Triton内核优化

文件: vllm/v1/attention/ops/triton_turboquant_store.py、vllm/v1/attention/ops/triton_turboquant_decode.py
关键符号: _tq_fused_store_mse、_tq_decode_stage1、_use_fp8_e4b15
变更: 新增融合存储内核（将桶化、质心收集、残差范数和值量化合并）和解码内核（分块KV注意力评分），自动检测GPU架构选择FP8格式。
原因: 减少内核启动开销，提升解码吞吐（+18-21%）和降低预填充TTFT（-10-12%），同时支持Ampere/Hopper兼容性。
影响: 直接决定运行时性能和跨设备兼容性。

5. 系统集成与测试

文件: vllm/model_executor/layers/attention/attention.py、vllm/engine/arg_utils.py、tests/quantization/test_turboquant.py
关键符号: _init_turboquant_buffers、kv_cache_dtype参数处理、TestTurboQuantConfig
变更: 在注意力层初始化TurboQuant缓冲区，扩展引擎参数解析支持新缓存类型，添加单元测试验证配置正确性和边界情况。
原因: 确保TurboQuant无缝集成到现有模型执行和部署流程，并通过测试保证质量。
影响: 影响模型加载、推理流水线和持续集成验证。

关键文件：

vllm/model_executor/layers/quantization/turboquant/config.py（模块量化配置；类别 source；类型 data-contract；符号 TurboQuantConfig, key_fp8, mse_bits, key_mse_bits）: TurboQuant的核心配置定义，包含命名预设和TurboQuantConfig类，作为整个量化系统的数据契约，直接影响压缩比和兼容性。
vllm/v1/attention/backends/turboquant_attn.py（模块注意力后端；类别 source；类型 core-logic；符号 _build_hadamard, _build_hadamard_cached, TurboQuantAttentionBackend, get_name）: TurboQuant注意力后端的主实现，集成到vLLM v1注意力系统，处理预填充、解码和续填路径，是性能和质量的核心。
tests/quantization/test_turboquant.py（模块测试；类别 test；类型 test-coverage；符号 _assert_strictly_sorted, _is_power_of_2, TestTurboQuantConfig, test_preset_parses）: TurboQuant的单元测试文件，验证配置解析、预设正确性和量化逻辑，确保功能稳定性和质量。

关键符号：TurboQuantConfig.init, TurboQuantConfig.key_fp8, _build_hadamard, _build_hadamard_cached, solve_lloyd_max, get_centroids, TurboQuantAttentionBackend.get_name, TurboQuantAttentionImpl.forward, _tq_fused_store_mse, _tq_decode_stage1, _init_turboquant_buffers

关键源码片段

`vllm/model_executor/layers/quantization/turboquant/config.py`

TurboQuant的核心配置定义，包含命名预设和TurboQuantConfig类，作为整个量化系统的数据契约，直接影响压缩比和兼容性。

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
"""TurboQuant KV缓存量化配置文件。"""

import math
from dataclasses import dataclass

# 命名TQ预设：每个映射到固定的配置参数。
# key_quant_bits: 8 = FP8键, 3-4 = MSE (Lloyd-Max) 量化键。
# value_quant_bits: 3-4 = 均匀量化值。
TQ_PRESETS: dict[str, dict] = {
    "turboquant_k8v4": {
        "key_quant_bits": 8,
        "value_quant_bits": 4,
        "norm_correction": False,
    },
    "turboquant_4bit_nc": {
        "key_quant_bits": 4,
        "value_quant_bits": 4,
        "norm_correction": True,
    },
    "turboquant_k3v4_nc": {
        "key_quant_bits": 3,
        "value_quant_bits": 4,
        "norm_correction": True,
    },
    "turboquant_3bit_nc": {
        "key_quant_bits": 3,
        "value_quant_bits": 3,
        "norm_correction": True,
    },
}

@dataclass
class TurboQuantConfig:
    """TurboQuant KV缓存量化配置类。

    使用PolarQuant（WHT旋转 + Lloyd-Max标量量化）处理键，
    均匀量化处理值。QJL（量化残差层）被故意省略——
    社区共识（5+独立组）发现它会通过softmax放大方差，损害注意力质量。
    """
    head_dim: int = 128 # 注意力头维度
    key_quant_bits: int = 3 # 键量化位数：3-4 = MSE键, 8 = FP8键
    value_quant_bits: int = 4 # 值量化位数：3-4 = 均匀量化值
    seed: int = 42 # 随机种子
    norm_correction: bool = False # 是否进行范数校正

    @property
    def key_fp8(self) -> bool:
        """是否为FP8键模式（无旋转/量化）。"""
        return self.key_quant_bits == 8

    @property
    def mse_bits(self) -> int:
        """MSE量化器位宽，决定质心数量（2^mse_bits）。"""
        if self.key_fp8:
            # FP8模式下，回退到值量化位数，质心仍用于续填反量化和解码内核参数
            return self.value_quant_bits
        return self.key_quant_bits

    @property
    def n_centroids(self) -> int:
        """质心数量。"""
        return 2 ** self.mse_bits

    @property
    def key_packed_size(self) -> int:
        """单个键向量的打包字节数。"""
        if self.key_fp8:
            return self.head_dim # 每个元素1字节
        mse_bytes = math.ceil(self.head_dim * self.key_mse_bits / 8)
        norm_bytes = 2 # vec_norm使用float16
        return mse_bytes + norm_bytes

    @property
    def value_packed_size(self) -> int:
        """单个值向量的打包字节数。"""
        data_bytes = math.ceil(self.head_dim * self.value_quant_bits / 8)
        return data_bytes + 4 # +2 scale(fp16) +2 zero(fp16)

    @property
    def slot_size(self) -> int:
        """每个头每个位置的总打包字节数（键+值）。"""
        return self.key_packed_size + self.value_packed_size

`vllm/v1/attention/backends/turboquant_attn.py`

TurboQuant注意力后端的主实现，集成到vLLM v1注意力系统，处理预填充、解码和续填路径，是性能和质量的核心。

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
"""TurboQuant注意力后端实现。

预填充：在未压缩K/V上执行标准缩放点积注意力，然后量化K并存储K+V到组合缓存槽。
解码：从压缩缓存计算TQ注意力分数，解包FP16值，进行softmax和加权求和。
"""

import functools
import math
import torch
import torch.nn.functional as F
from vllm.config import get_current_vllm_config
from vllm.v1.attention.backend import AttentionBackend, AttentionImpl
from vllm.v1.attention.ops.triton_turboquant_decode import triton_turboquant_decode_attention
from vllm.v1.attention.ops.triton_turboquant_store import triton_turboquant_store

# 续填解码阈值：当续填块长度≤此值时，直接使用TQ解码内核，避免全反量化开销。
_CONTINUATION_DECODE_THRESHOLD = 128

def _build_hadamard(d: int, device_str: str) -> torch.Tensor:
    """构建正交Hadamard矩阵（Sylvester构造），按(d, 设备)缓存。

    预计算D×D矩阵启用基于矩阵乘的WHT——单个cuBLAS GEMM代替log2(D)次蝶形内核启动。
    对于D=128，大小约64KB。
    """
    return _build_hadamard_cached(d, str(torch.device(device_str)))

@functools.cache
def _build_hadamard_cached(d: int, device_str: str) -> torch.Tensor:
    """Hadamard矩阵的缓存版本，确保每个(d, 设备)只计算一次。"""
    H = torch.tensor([[1.0]])
    while H.shape[0] < d:
        H = torch.cat([torch.cat([H, H], 1), torch.cat([H, -H], 1)], 0)
    return (H / math.sqrt(d)).to(torch.device(device_str))

class TurboQuantAttentionBackend(AttentionBackend):
    """使用TurboQuant KV缓存压缩的注意力后端。"""
    supported_kv_cache_dtypes = [
        "turboquant_k8v4",
        "turboquant_4bit_nc",
        "turboquant_k3v4_nc",
        "turboquant_3bit_nc",
    ]

    @staticmethod
    def get_name() -> str:
        return "TURBOQUANT"

    @classmethod
    def supports_attn_type(cls, attn_type: str) -> bool:
        return attn_type == "DECODER" # 仅支持解码器注意力类型

    @staticmethod
    def get_impl_cls() -> type["TurboQuantAttentionImpl"]:
        return TurboQuantAttentionImpl

class TurboQuantAttentionImpl(AttentionImpl):
    """TurboQuant注意力实现，处理具体前向逻辑。"""
    def forward(
        self,
        query: torch.Tensor,
        key: torch.Tensor,
        value: torch.Tensor,
        attn_metadata: "AttentionMetadata",
    ) -> torch.Tensor:
        """前向传播，根据元数据区分预填充和解码路径。"""
        # 分割解码和预填充请求
        decode_meta, prefill_meta = split_decodes_and_prefills(attn_metadata)
        output = torch.empty_like(query)

        if decode_meta is not None:
            # 解码路径：使用Triton TQ解码内核
            output = triton_turboquant_decode_attention(
                query, key, value, decode_meta, self.layer
            )
        if prefill_meta is not None:
            # 预填充路径：使用FlashAttention或标准SDPA，然后存储量化KV
            if prefill_meta.is_continuation and prefill_meta.q_len <= _CONTINUATION_DECODE_THRESHOLD:
                # 小续填块直接走解码内核
                output = triton_turboquant_decode_attention(
                    query, key, value, prefill_meta, self.layer
                )
            else:
                # 大续填或初始预填充，使用FlashAttention
                if _HAS_FLASH_ATTN:
                    output = flash_attn_varlen_func(query, key, value, ...)
                else:
                    output = F.scaled_dot_product_attention(query, key, value)
                # 存储量化KV到缓存
                triton_turboquant_store(key, value, self.layer, ...)
        return output

评论区精华

设计决策：独立后端 vs 集成到现有后端
mgoin 最初期望将TurboQuant集成到现有Triton注意力后端，但经过 #sig-quantization 会议讨论，共识是采用独立 TurboQuantAttentionBackend 以追求窄用例峰值性能并隔离开发风险。
结论：接受独立后端方案，作为临时措施，未来可能整合。
质量修复与不对称K/V分配
早期测试显示 tq3 预设GSM8K准确率为0%，原因为值量化精度不足。讨论中（MidasMining、varjoranta、Alberto-Codes）发现值（V）是推理任务精度瓶颈，而非键（K）。
决策：将 value_quant_bits 默认改为8（FP8），并引入不对称预设如 turboquant_k3v4_nc（K 3-bit, V 4-bit），在社区数据支持下平衡压缩与质量。
技术缺陷与修复
gemini-code-assist[bot] 指出3-bit解包逻辑在跨字节边界时错误，以及FP8回退转换不准确。
作者通过简化实现、移除有问题的CUDA代码、专注Triton路径解决，并在后续提交中修复。
性能优化与代码清理
lishunyang12 提出多项优化建议：消除 .item() 导致的CPU-GPU同步、修复流重叠方向、缓存中间缓冲区以避免重复分配、改进桶化搜索逻辑。
作者响应并实施部分更改，如移除个人开发脚本、添加预填充-解码分割逻辑。
兼容性与范围界定
讨论中识别混合模型（如Gemma 4的滑动窗口+全注意力）的页面大小对齐问题，决定将本PR范围限定为全注意力和均匀滑动窗口模型，复杂架构留待后续PR处理。
3-bit解包逻辑错误 (correctness): 作者在后续提交中通过简化实现和专注Triton路径修复此问题。
独立后端设计决策 (design): 接受独立后端方案作为临时措施，未来可能整合。
质量修复与不对称K/V分配 (correctness): 实施修复，将value_quant_bits默认改为8，并添加不对称预设以平衡压缩与质量。
性能优化建议 (performance): 作者响应并实施部分更改，如添加预填充-解码分割逻辑，但部分优化（如流重叠）被禁用或留待后续。

风险与影响

风险：- 回归风险：
- 核心路径变更（vllm/v1/attention/backends/turboquant_attn.py）可能影响现有注意力调度逻辑，尤其是在混合预填充-解码批次中，若分割逻辑有误可能导致性能下降或错误。
- Triton内核（triton_turboquant_decode.py）中的 BLOCK_KV = 4 设置未经充分调优，可能低于最佳内存合并效率，影响解码吞吐。
性能风险：
- 量化开销：尽管融合内核减少启动，但额外计算（WHT旋转、Lloyd-Max反量化）可能增加短序列场景的延迟，性能数据显示解码吞吐降至基线的68-79%。
- 内存管理：_ensure_on_device 方法可能使缓冲区脱离 register_buffer 跟踪，影响模型迁移和状态字典保存。
兼容性风险：
- GPU架构：FP8格式自动检测（_use_fp8_e4b15）覆盖Ampere/Hopper，但未测试更旧架构（如Turing），可能导致运行时错误。
- 模型类型：明确排除混合注意力-Mamba模型（如Qwen3.5），使用这些模型时可能遇到页面大小不匹配或非法内存访问。
安全风险：
- 低，量化过程不涉及敏感数据，但内核中的整数溢出或边界检查不足可能导致未定义行为。
测试覆盖不足：
- 单元测试（test_turboquant.py）主要覆盖配置和质心计算，缺少端到端推理测试和对WHT旋转、内核round-trip的验证，可能遗漏集成问题。
影响：- 用户影响：
- 正面：用户可通过 --kv-cache-dtype 参数选择TurboQuant预设，在不修改模型权重下获得2.6-4.9倍KV缓存压缩，适合内存受限或长上下文场景。
- 负面：需要学习新配置选项，且部分模型（混合架构）不受支持；性能权衡需用户根据用例评估。
系统影响：
- 内存：显著减少KV缓存内存占用，提升单GPU可处理序列长度或批量大小。
- 计算：增加量化/反量化开销，可能降低吞吐，尤其在短序列解码场景。
- 架构：引入新注意力后端，扩展vLLM模块化设计，但可能增加维护复杂性。
团队影响：
- 开发：提供量化KV缓存的新范式，促进后续压缩特性开发；代码规模较大（27文件，+2963/-3行），需团队熟悉新模块。
- 运维：依赖Triton JIT编译，可能影响部署环境；需监控性能回归和质量指标。
风险标记：核心路径变更, 缺少测试覆盖, 性能回归风险, 混合模型兼容性

关联脉络

PR #40060 Fix TURBOQUANT backend selection in cuda.py: 修复TurboQuant后端选择逻辑，与本PR新增的TurboQuantAttentionBackend相关，可能影响后端优先级和集成。
PR #37332 Add nvfp4 support to reshape_and_cache_flash: 同为KV缓存量化特性，扩展KV缓存功能，技术领域相似，可参考量化集成模式。
PR #40105 [Bugfix] Add Marlin kernel in block scaled mm kernel selection.: 涉及内核选择和FP8量化，与本PR的Triton内核和FP8支持有技术重叠。

支持 Prhub ♥

#38479 [Attention Backend] TurboQuant: 2-bit KV cache compression with 4x capacity

执行摘要

新增 TurboQuant 注意力后端，通过 2-bit KV 缓存压缩实现最高 4.9 倍容量提升。

实现拆解

1. 配置与预设定义

2. 注意力后端集成

3. 量化核心逻辑

4. Triton内核优化

5. 系统集成与测试

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

1. 配置与预设定义

2. 注意力后端集成

3. 量化核心逻辑

4. Triton内核优化

5. 系统集成与测试

关键源码片段

`vllm/model_executor/layers/quantization/turboquant/config.py`

`vllm/v1/attention/backends/turboquant_attn.py`

评论区精华

风险与影响

关联脉络

参与讨论