#39953 [ROCm] Fix TurboQuant on ROCm: backend routing, flash-attn compat, int64 overflow

vllm-project/vllm · 作者 aditi-amd · 合并时间 2026-04-18 04:08

分析状态已生成

文件变更 4提交数 2 · 评论 11

代码增减 +22 / -23

rocm bugfix quantization v1

执行摘要

修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。

根据 PR body，目的是修复 ROCm 平台上 TurboQuant 的功能，具体包括：将 turboquant_* KV 缓存类型路由到 TurboQuantBackend，包装 flash_attn_varlen_func 以处理 out= 关键字参数（上游 API 不匹配），并在 Triton TQ 解码/存储内核中将块索引和槽偏移转换为 int64 以防止大 KV 缓存下的 int32 溢出。

该 PR 值得精读，特别是如何通过最小化代码变更解决平台特定 API 不兼容性，以及后端路由的设计决策。关注 turboquant_attn.py 中的注意力逻辑调整和 rocm.py 中的路由实现，这些展示了跨平台适配的实用技巧。

讨论亮点

Review 中，gemini-code-assist[bot] 指出 flash-attn 包装函数应处理元组返回情况，但作者 aditi-amd 选择直接移除 out= 参数调用，简化实现（评论：“Removed the out= kwarg from all three flash_attn_varlen_func call sites...”）。BowenBao 和 mgoin 讨论后端路由的正确方式，参考 PR #40060 的模式，最终采用直接返回 TurboQuant 后端列表的方法（评论：“Can you do it this way? https://github.com/vllm-project/vllm/pull/40060”）。决策结论是避免修改包装函数，直接调整调用方以保持兼容性。

实现拆解

修复后端路由：在 vllm/platforms/rocm.py 的 _get_backend_priorities 函数中添加 AttentionBackendEnum.TURBOQUANT 到后端优先级列表，并在 get_valid_backends 中为 turboquant_* KV 缓存类型直接返回 TurboQuant 后端，模仿 CUDA 平台的实现模式。
适配 flash-attn API：修改 vllm/v1/attention/backends/turboquant_attn.py 中的 _prefill_attention 和 _continuation_prefill 方法，移除对 flash_attn_varlen_func 的 out= 参数调用，改为直接使用其返回值，避免 ROCm 上 flash-attn 版本不支持的 API。
防止 int64 溢出：在 vllm/v1/attention/ops/triton_turboquant_store.py 和 triton_turboquant_decode.py 中，将索引计算（如 blk、off、head_idx）显式转换为 int64 类型，以防止在大型 KV 缓存中发生 int32 溢出。
测试验证：PR body 提到在 AMD MI300X 上运行 GPT-OSS-120B 模型验证，并通过单元测试 tests/quantization/test_turboquant.py，但代码变更中无直接测试文件修改。

文件	模块	状态	重要度
`vllm/platforms/rocm.py`	平台层	modified	4.98
`vllm/v1/attention/backends/turboquant_attn.py`	注意力后端	modified	5.45
`vllm/v1/attention/ops/triton_turboquant_store.py`	注意力后端	modified	3.99
`vllm/v1/attention/ops/triton_turboquant_decode.py`	注意力后端	modified	3.86

vllm/platforms/rocm.py configuration

关键的平台层配置变更，添加 TurboQuant 后端路由，确保 ROCm 上 TurboQuant 功能可用。

def _get_backend_priorities(use_mla: bool = False) -> list[AttentionBackendEnum]:
    # ... 其他后端逻辑
    backends = [
        AttentionBackendEnum.ROCM_ATTN,
    ]
    if rocm_aiter_ops.is_mha_enabled():
        backends.append(AttentionBackendEnum.ROCM_AITER_FA)
    if is_aiter_found_and_supported():
        backends.append(AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN)
    backends.append(AttentionBackendEnum.TRITON_ATTN)
    backends.append(AttentionBackendEnum.TURBOQUANT) # 新增：将 TurboQuant 后端加入优先级列表，确保在 ROCm 上可用
    return backends


def get_valid_backends(
    attn_selector_config: AttnSelectorConfig,
) -> list[tuple[AttentionBackendEnum, str]]:
    valid_backends_priorities = []
    invalid_reasons = {}
    # TurboQuant KV cache: 如果 KV 缓存类型以 turboquant_ 开头，直接路由到 TURBOQUANT 后端
    kv_cache_dtype = attn_selector_config.kv_cache_dtype
    if kv_cache_dtype is not None and kv_cache_dtype.startswith("turboquant_"):
        from vllm.v1.attention.backends.registry import AttentionBackendEnum
        return [(AttentionBackendEnum.TURBOQUANT, "TurboQuant KV cache")]
    # ... 其他后端选择逻辑

vllm/v1/attention/backends/turboquant_attn.py core-logic

核心注意力逻辑变更，移除 flash-attn 的 out= 参数以适配 ROCm 平台 API。

def _prefill_attention(
    self,
    query: torch.Tensor, # (N, Hq, D)
    key: torch.Tensor, # (N, Hk, D)
    value: torch.Tensor, # (N, Hk, D)
    kv_cache: torch.Tensor, # (num_blocks, block_size, Hk, slot_size)
    attn_metadata: TurboQuantMetadata,
    Pi: torch.Tensor,
    centroids: torch.Tensor,
    PiT: torch.Tensor | None = None,
    layer: Any = None,
) -> torch.Tensor:
    N, Hq, D = query.shape
    # Fast path: 使用 flash_attn 处理首次块预填充
    if _HAS_FLASH_ATTN and attn_metadata.max_query_len == attn_metadata.max_seq_len:
        # 修改点：移除 out= 参数，直接返回结果，适配 ROCm 上 flash-attn 版本不支持的 API
        return flash_attn_varlen_func(
            q=query,
            k=key,
            v=value,
            cu_seqlens_q=attn_metadata.query_start_loc,
            cu_seqlens_k=attn_metadata.query_start_loc,
            max_seqlen_q=attn_metadata.max_query_len,
            max_seqlen_k=attn_metadata.max_query_len,
            softmax_scale=self.scale,
            causal=True,
        )
    # ... 后续处理逻辑

关键符号

_prefill_attention _continuation_prefill _tq_fused_store_fp8 _tq_fused_store_mse _tq_decode_stage1 _tq_full_dequant_kv

评论区精华

flash-attn API 兼容性 设计

gemini-code-assist[bot] 建议包装函数应处理元组返回，但作者 aditi-amd 选择直接移除 out= 参数调用，以简化实现。

结论：决定不修改包装函数，而是调整调用方，移除 out= 参数并直接使用返回值。 · 已解决

后端路由实现 设计

BowenBao 和 mgoin 讨论如何正确路由 TurboQuant 后端，参考 PR #40060 的模式。

结论：采用直接返回 TurboQuant 后端列表的方法，更新 rocm.py 中的 get_valid_backends 函数。 · 已解决

风险与影响

技术风险：移除 out= 参数可能轻微影响性能或正确性，但通过直接使用返回值确保相同行为；int64 转换增加轻微计算开销，但防止了溢出风险，在 triton_turboquant_store.py 和 triton_turboquant_decode.py 中索引计算是关键路径。兼容性风险：适配了 ROCm 特定 flash-attn 版本，但可能与其他平台或未来版本不兼容；后端路由变更需确保不干扰其他注意力后端的选择，如 ROCM_ATTN 或 TRITON_ATTN。

对用户影响：ROCm 平台用户现在可以正常使用 TurboQuant 量化功能，提升模型部署效率和内存使用，支持更大序列长度。对系统影响：增强了 TurboQuant 在 AMD 硬件上的稳定性和可扩展性，减少了因 API 不兼容或索引溢出导致的运行时错误。对团队影响：提供了跨平台量化支持的参考模式，促进了 ROCm 生态的完善。

索引溢出风险 API 不兼容核心路径变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。
推荐动作：该 PR 值得精读，特别是如何通过最小化代码变更解决平台特定 API 不兼容性，以及后端路由的设计决策。关注 turboquant_attn.py 中的注意力逻辑调整和 rocm.py 中的路由实现，这些展示了跨平台适配的实用技巧。

功能与动机

实现拆解

修复后端路由：在 vllm/platforms/rocm.py 的 _get_backend_priorities 函数中添加 AttentionBackendEnum.TURBOQUANT 到后端优先级列表，并在 get_valid_backends 中为 turboquant_* KV 缓存类型直接返回 TurboQuant 后端，模仿 CUDA 平台的实现模式。
适配 flash-attn API：修改 vllm/v1/attention/backends/turboquant_attn.py 中的 _prefill_attention 和 _continuation_prefill 方法，移除对 flash_attn_varlen_func 的 out= 参数调用，改为直接使用其返回值，避免 ROCm 上 flash-attn 版本不支持的 API。
防止 int64 溢出：在 vllm/v1/attention/ops/triton_turboquant_store.py 和 triton_turboquant_decode.py 中，将索引计算（如 blk、off、head_idx）显式转换为 int64 类型，以防止在大型 KV 缓存中发生 int32 溢出。
测试验证：PR body 提到在 AMD MI300X 上运行 GPT-OSS-120B 模型验证，并通过单元测试 tests/quantization/test_turboquant.py，但代码变更中无直接测试文件修改。

关键文件：

vllm/platforms/rocm.py（模块平台层；类别 source；类型 configuration；符号 _get_backend_priorities, get_valid_backends）: 关键的平台层配置变更，添加 TurboQuant 后端路由，确保 ROCm 上 TurboQuant 功能可用。
vllm/v1/attention/backends/turboquant_attn.py（模块注意力后端；类别 source；类型 core-logic；符号 _prefill_attention, _continuation_prefill）: 核心注意力逻辑变更，移除 flash-attn 的 out= 参数以适配 ROCm 平台 API。
vllm/v1/attention/ops/triton_turboquant_store.py（模块注意力后端；类别 infra；类型 infrastructure；符号 _tq_fused_store_fp8, _tq_fused_store_mse）: 基础设施变更，强制索引计算为 int64 以防止大 KV 缓存下的溢出。
vllm/v1/attention/ops/triton_turboquant_decode.py（模块注意力后端；类别 infra；类型 infrastructure；符号 _tq_decode_stage1, _tq_full_dequant_kv）: 类似存储内核，修复解码路径中的 int32 溢出风险。

关键符号：_prefill_attention, _continuation_prefill, _tq_fused_store_fp8, _tq_fused_store_mse, _tq_decode_stage1, _tq_full_dequant_kv

关键源码片段

`vllm/platforms/rocm.py`

关键的平台层配置变更，添加 TurboQuant 后端路由，确保 ROCm 上 TurboQuant 功能可用。

def _get_backend_priorities(use_mla: bool = False) -> list[AttentionBackendEnum]:
    # ... 其他后端逻辑
    backends = [
        AttentionBackendEnum.ROCM_ATTN,
    ]
    if rocm_aiter_ops.is_mha_enabled():
        backends.append(AttentionBackendEnum.ROCM_AITER_FA)
    if is_aiter_found_and_supported():
        backends.append(AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN)
    backends.append(AttentionBackendEnum.TRITON_ATTN)
    backends.append(AttentionBackendEnum.TURBOQUANT) # 新增：将 TurboQuant 后端加入优先级列表，确保在 ROCm 上可用
    return backends


def get_valid_backends(
    attn_selector_config: AttnSelectorConfig,
) -> list[tuple[AttentionBackendEnum, str]]:
    valid_backends_priorities = []
    invalid_reasons = {}
    # TurboQuant KV cache: 如果 KV 缓存类型以 turboquant_ 开头，直接路由到 TURBOQUANT 后端
    kv_cache_dtype = attn_selector_config.kv_cache_dtype
    if kv_cache_dtype is not None and kv_cache_dtype.startswith("turboquant_"):
        from vllm.v1.attention.backends.registry import AttentionBackendEnum
        return [(AttentionBackendEnum.TURBOQUANT, "TurboQuant KV cache")]
    # ... 其他后端选择逻辑

`vllm/v1/attention/backends/turboquant_attn.py`

核心注意力逻辑变更，移除 flash-attn 的 out= 参数以适配 ROCm 平台 API。

def _prefill_attention(
    self,
    query: torch.Tensor, # (N, Hq, D)
    key: torch.Tensor, # (N, Hk, D)
    value: torch.Tensor, # (N, Hk, D)
    kv_cache: torch.Tensor, # (num_blocks, block_size, Hk, slot_size)
    attn_metadata: TurboQuantMetadata,
    Pi: torch.Tensor,
    centroids: torch.Tensor,
    PiT: torch.Tensor | None = None,
    layer: Any = None,
) -> torch.Tensor:
    N, Hq, D = query.shape
    # Fast path: 使用 flash_attn 处理首次块预填充
    if _HAS_FLASH_ATTN and attn_metadata.max_query_len == attn_metadata.max_seq_len:
        # 修改点：移除 out= 参数，直接返回结果，适配 ROCm 上 flash-attn 版本不支持的 API
        return flash_attn_varlen_func(
            q=query,
            k=key,
            v=value,
            cu_seqlens_q=attn_metadata.query_start_loc,
            cu_seqlens_k=attn_metadata.query_start_loc,
            max_seqlen_q=attn_metadata.max_query_len,
            max_seqlen_k=attn_metadata.max_query_len,
            softmax_scale=self.scale,
            causal=True,
        )
    # ... 后续处理逻辑

评论区精华

flash-attn API 兼容性 (design): 决定不修改包装函数，而是调整调用方，移除 out= 参数并直接使用返回值。
后端路由实现 (design): 采用直接返回 TurboQuant 后端列表的方法，更新 rocm.py 中的 get_valid_backends 函数。

风险与影响

风险：技术风险：移除 out= 参数可能轻微影响性能或正确性，但通过直接使用返回值确保相同行为；int64 转换增加轻微计算开销，但防止了溢出风险，在 triton_turboquant_store.py 和 triton_turboquant_decode.py 中索引计算是关键路径。兼容性风险：适配了 ROCm 特定 flash-attn 版本，但可能与其他平台或未来版本不兼容；后端路由变更需确保不干扰其他注意力后端的选择，如 ROCM_ATTN 或 TRITON_ATTN。
影响：对用户影响：ROCm 平台用户现在可以正常使用 TurboQuant 量化功能，提升模型部署效率和内存使用，支持更大序列长度。对系统影响：增强了 TurboQuant 在 AMD 硬件上的稳定性和可扩展性，减少了因 API 不兼容或索引溢出导致的运行时错误。对团队影响：提供了跨平台量化支持的参考模式，促进了 ROCm 生态的完善。
风险标记：索引溢出风险, API 不兼容, 核心路径变更

关联脉络

PR #40060 Fix TURBOQUANT backend selection in cuda.py: 类似地修复了 TURBOQUANT 后端选择逻辑，本 PR 参考了其实现模式。
PR #39931 [待确认，从 issue 评论提及]: issue 评论中 JartX 提到涉及相同代码部分，可能与本 PR 有重叠。

支持 Prhub ♥

#39953 [ROCm] Fix TurboQuant on ROCm: backend routing, flash-attn compat, int64 overflow

执行摘要

修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

关键源码片段

`vllm/platforms/rocm.py`

`vllm/v1/attention/backends/turboquant_attn.py`

评论区精华

风险与影响

关联脉络

参与讨论