#41617 [Bugfix][Mamba] IMA in causal_conv1d kernel for long sequences

原始 PR 作者 Flink-ddd 合并时间 2026-05-10 20:38 文件变更 1 提交数 4 评论 6 代码增减 +4 / -4

执行摘要

修复 causal_conv1d 超长序列 IMA 问题

修复 Issue #40905：在 Mamba/Jamba 模型中，当序列长度和特征维度足够大时，指针偏移计算的 token_offset * stride 表达式会超出 int32 范围（~2.1B），导致 CUDA IMA。

值得 merge：改动简洁、针对性强，有完整的问题复现和性能验证。可参考此 PR 的模式，检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。

讨论亮点

审核者 tomeras91 提出了两个关键点：

担心 int64 提升可能对短序列带来性能退化。
要求移除对 hyperclovax.py 的非必要格式改动。
作者 Flink-ddd 随后提供了微基准测试（seqlen 512~2M），结果显示 patch 与 main 性能无显著差异，甚至有些噪声带来的轻微提升。tomeras91 最终批准，并假设最新重构后 bug 仍被修复。

实现拆解

在 vllm/model_executor/layers/mamba/ops/causal_conv1d.py 文件中，修改 _causal_conv1d_fwd_kernel 函数的签名：将 stride_x_token 和 stride_o_token 参数的类型从 tl.constexpr（隐式 int32）改为 tl.int64。
同样修改 _causal_conv1d_update_kernel 函数签名中的相同参数。
移除了函数体中多余的 .to(tl.int64) 显式转换，保持代码整洁。
回退了对 hyperclovax.py 的非必要格式改动，使 PR 聚焦于核心 bugfix。

文件	模块	状态	重要度
`vllm/model_executor/layers/mamba/ops/causal_conv1d.py`	Mamba 算子	modified	4.89

关键符号

_causal_conv1d_fwd_kernel _causal_conv1d_update_kernel

关键源码片段

vllm/model_executor/layers/mamba/ops/causal_conv1d.py bugfix

核心修改文件，修复了 causal_conv1d 内核中的 int32 溢出 bug。

# vllm/model_executor/layers/mamba/ops/causal_conv1d.py

@triton.jit
def _causal_conv1d_fwd_kernel(
    # ... 其他参数 ...
    stride_x_dim: tl.constexpr,
    stride_x_token: tl.int64, # 改为 int64，防止超长序列时 token 偏移溢出
    stride_o_dim: tl.constexpr,
    stride_o_token: tl.int64, # 同上
    # ...
):
    # kernel 主体不变，但持有了 int64 类型指针确保地址计算正确
    pass

@triton.jit
def _causal_conv1d_update_kernel(
    # ...
    stride_x_token: tl.int64, # 同理
    stride_o_token: tl.int64,
    # ...
):
    pass

评论区精华

int64 提升是否导致性能退化 性能

tomeras91 担心 tl.int64 类型提升可能对短序列造成性能退化，要求进行微基准测试。

结论：作者提供了 512~2M 序列长度的微基准测试，结果显示无显著性能差异，tomeras91 认可。 · 已解决

移除 hyperclovax.py 的无关格式改动 style

tomeras91 要求移除对 hyperclovax.py 的格式调整，以保持 PR 聚焦。

结论：作者已移除该改动。 · 已解决

风险与影响

风险极低：改动仅涉及 4 行类型声明，从 int32 提升到 int64，不会改变计算逻辑。微基准测试已覆盖不同序列长度（512~2M），确认无性能退化。主要风险是遗漏了其他类似 kernel 中的溢出（但此 PR 仅针对 causal_conv1d，其他 kernel 暂未报告类似问题）。

影响范围小：只影响 Mamba/Jamba 模型的超长序列推理场景。对正常长度序列无影响。修复后用户可在超长上下文（如 1.4M tokens）下正常使用 Mamba 模型。

核心路径变更

关联 Issue

#40905 [Bug]: IMA in _causal_conv1d_fwd_kernel for long sequence input

完整报告

执行摘要

一句话：修复 causal_conv1d 超长序列 IMA 问题
推荐动作：值得 merge：改动简洁、针对性强，有完整的问题复现和性能验证。可参考此 PR 的模式，检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。

功能与动机

实现拆解

在 vllm/model_executor/layers/mamba/ops/causal_conv1d.py 文件中，修改 _causal_conv1d_fwd_kernel 函数的签名：将 stride_x_token 和 stride_o_token 参数的类型从 tl.constexpr（隐式 int32）改为 tl.int64。
同样修改 _causal_conv1d_update_kernel 函数签名中的相同参数。
移除了函数体中多余的 .to(tl.int64) 显式转换，保持代码整洁。
回退了对 hyperclovax.py 的非必要格式改动，使 PR 聚焦于核心 bugfix。

关键文件：

vllm/model_executor/layers/mamba/ops/causal_conv1d.py（模块 Mamba 算子；类别 source；类型 bugfix；符号 _causal_conv1d_fwd_kernel, _causal_conv1d_update_kernel）: 核心修改文件，修复了 causal_conv1d 内核中的 int32 溢出 bug。

关键符号：_causal_conv1d_fwd_kernel, _causal_conv1d_update_kernel

关键源码片段

`vllm/model_executor/layers/mamba/ops/causal_conv1d.py`

核心修改文件，修复了 causal_conv1d 内核中的 int32 溢出 bug。

# vllm/model_executor/layers/mamba/ops/causal_conv1d.py

@triton.jit
def _causal_conv1d_fwd_kernel(
    # ... 其他参数 ...
    stride_x_dim: tl.constexpr,
    stride_x_token: tl.int64, # 改为 int64，防止超长序列时 token 偏移溢出
    stride_o_dim: tl.constexpr,
    stride_o_token: tl.int64, # 同上
    # ...
):
    # kernel 主体不变，但持有了 int64 类型指针确保地址计算正确
    pass

@triton.jit
def _causal_conv1d_update_kernel(
    # ...
    stride_x_token: tl.int64, # 同理
    stride_o_token: tl.int64,
    # ...
):
    pass

评论区精华

审核者 tomeras91 提出了两个关键点：

担心 int64 提升可能对短序列带来性能退化。
要求移除对 hyperclovax.py 的非必要格式改动。
作者 Flink-ddd 随后提供了微基准测试（seqlen 512~2M），结果显示 patch 与 main 性能无显著差异，甚至有些噪声带来的轻微提升。tomeras91 最终批准，并假设最新重构后 bug 仍被修复。
int64 提升是否导致性能退化 (performance): 作者提供了 512~2M 序列长度的微基准测试，结果显示无显著性能差异，tomeras91 认可。
移除 hyperclovax.py 的无关格式改动 (style): 作者已移除该改动。

风险与影响

风险：风险极低：改动仅涉及 4 行类型声明，从 int32 提升到 int64，不会改变计算逻辑。微基准测试已覆盖不同序列长度（512~2M），确认无性能退化。主要风险是遗漏了其他类似 kernel 中的溢出（但此 PR 仅针对 causal_conv1d，其他 kernel 暂未报告类似问题）。
影响：影响范围小：只影响 Mamba/Jamba 模型的超长序列推理场景。对正常长度序列无影响。修复后用户可在超长上下文（如 1.4M tokens）下正常使用 Mamba 模型。
风险标记：核心路径变更

关联脉络

PR #40905 [Bug]: IMA in _causal_conv1d_fwd_kernel for long sequence input: 本 PR 直接修复该 issue 报告的问题。
PR #40119 [CPU][RISC-V] Add RVV-optimized attention kernels for RISC-V Vector Extension: 同样涉及自定义 kernel 修改，可对比 kernel 开发与验证流程。

#41617 [Bugfix][Mamba] IMA in causal_conv1d kernel for long sequences

执行摘要

修复 causal_conv1d 超长序列 IMA 问题

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论