#40032 Revert #38730 and #38791

原始 PR 作者 vadiklyutiy 合并时间 2026-04-21 23:44 文件变更 3 提交数 4 评论 4 代码增减 +8 / -11

执行摘要

撤销对 TRTLLM 注意力后端 SM100 限制的临时修复，恢复 SM10x 家族支持。

PR body明确指出：#38730是FlashInfer issue #2939（GB300 SM103上TRTLLM注意力死锁）的临时解决方案。该上游问题已在FlashInfer v0.19.1修复（commit cfad6a5），但主分支未同步撤销该临时修复。因此需要撤销#38730及其关联的测试修复#38791，以恢复TRTLLM注意力对SM10x设备家族的支持，避免不必要的功能限制。

该PR值得快速浏览，重点关注vllm/utils/flashinfer.py中设备能力检查的逻辑恢复，以及测试用例的同步更新。设计决策体现了“上游修复后及时清理临时补丁”的良好实践，但需注意对上游依赖的信任风险。

讨论亮点

review中仅有简单批准，无实质性技术讨论。gemini-code-assist[bot]的评论总结了变更要点：“更新TRTLLM注意力后端以支持SM10x设备能力家族而非特定版本”，但未引发进一步讨论。其他reviewer（pavanimajety、ZJY0516、yewentao256）均直接批准。

实现拆解

撤销核心逻辑限制：在vllm/utils/flashinfer.py中，supports_trtllm_attention()函数原本通过current_platform.is_device_capability_family(100)检查SM100支持；本次变更仅添加了一条注释说明，实际逻辑未变，但通过撤销#38730的提交，该函数已从使用is_device_capability（检查具体版本如10.0）恢复为使用is_device_capability_family（检查家族如10.x）。
更新文档生成器：tools/pre_commit/generate_attention_backend_docs.py中的_find_cc_in_function函数被重构，从同时处理is_device_capability_family和is_device_capability两种模式，简化为仅处理is_device_capability_family模式，以匹配恢复后的设备能力检查逻辑。
同步测试用例：tests/kernels/attention/test_use_trtllm_attention.py中的两个测试函数test_supports_non_sm100_platform和test_supports_sm100_without_artifactory，将其mock对象从current_platform.is_device_capability更新为current_platform.is_device_capability_family，确保测试与核心逻辑保持一致。

文件	模块	状态	重要度
`vllm/utils/flashinfer.py`	工具函数	modified	5.27
`tools/pre_commit/generate_attention_backend_docs.py`	预提交工具	modified	5.62
`tests/kernels/attention/test_use_trtllm_attention.py`	注意力测试	modified	3.83

关键符号

supports_trtllm_attention _find_cc_in_function test_supports_non_sm100_platform test_supports_sm100_without_artifactory

关键源码片段

vllm/utils/flashinfer.py core-logic

核心逻辑文件，包含 TRTLLM 注意力支持检查的关键函数。

@functools.cache
def supports_trtllm_attention() -> bool:
    """
    TRTLLM attention is supported if the platform is SM100,
    NVIDIA artifactory is accessible, and batch-invariant mode is not enabled.
    """
    # Batch-invariant mode disables TRTLLM attention
    if envs.VLLM_BATCH_INVARIANT:
        return False

    # Requires SM100 and NVIDIA artifactory to be accessible to download cubins
    # 注意：这里使用 is_device_capability_family(100) 检查 SM10x 家族（如 SM100、SM103）
    # 而非 is_device_capability(100) 仅检查 SM100，恢复了对更广泛设备的支持。
    return (
        current_platform.is_device_capability_family(100) and has_nvidia_artifactory()
    )

tools/pre_commit/generate_attention_backend_docs.py configuration

文档生成器，其逻辑需与核心代码的设备能力检查保持一致。

def _find_cc_in_function(tree: ast.AST, func_name: str) -> str | None:
    """Find a compute capability from is_device_capability_family() calls in a function.

    Looks for the pattern: current_platform.is_device_capability_family(N)
    and converts N (e.g. 100) to a CC string (e.g. "10.x").
    # 变更：从支持两种模式（is_device_capability_family和is_device_capability）
    # 简化为仅支持is_device_capability_family，以反映核心逻辑的恢复。
    """
    for node in ast.walk(tree):
        if not isinstance(node, ast.FunctionDef) or node.name != func_name:
            continue
        for n in ast.walk(node):
            if (
                isinstance(n, ast.Call)
                and isinstance(n.func, ast.Attribute)
                and n.func.attr == "is_device_capability_family" # 仅匹配家族检查
                and n.args
                and isinstance(n.args[0], ast.Constant)
                and isinstance(n.args[0].value, int)
            ):
                return f"{n.args[0].value // 10}.x" # 返回家族版本，如 "10.x"
    return None

评论区精华

变更总结与批准 other

gemini-code-assist[bot] 总结了 PR 要点：“更新 TRTLLM 注意力后端以支持 SM10x 设备能力家族而非特定版本”，其他 reviewer 直接批准。

结论：变更被接受，无争议。 · 已解决

风险与影响

回归风险：撤销临时修复后，若上游FlashInfer修复不彻底或存在其他未发现的SM103兼容性问题，可能导致GB300设备再次出现死锁。风险集中在vllm/utils/flashinfer.py的supports_trtllm_attention函数。
测试覆盖风险：测试用例的mock更新确保了与代码逻辑一致，但未增加针对SM103设备的集成测试，依赖上游修复的可靠性。
文档一致性风险：文档生成器逻辑简化后，若未来代码中再次引入is_device_capability检查，可能导致生成的文档不准确。

用户影响：使用GB300（SM103）等SM10x家族设备的用户将恢复TRTLLM注意力后端支持，可能提升推理性能；但若上游修复有问题，可能再次遭遇死锁。
系统影响：恢复了TRTLLM注意力对更广泛设备家族（SM10x）的支持，增强了系统在NVIDIA新硬件上的兼容性。
团队影响：清理了因上游bug引入的临时代码，减少了代码库的维护负担，但需要团队关注上游FlashInfer的稳定性。

上游依赖风险测试覆盖不足

关联 Issue

#2939 [Bug] TRTLLM attention hangs on GB300 (SM103) with FlashInfer 0.6.7

完整报告

执行摘要

一句话：撤销对TRTLLM注意力后端SM100限制的临时修复，恢复SM10x家族支持。
推荐动作：该PR值得快速浏览，重点关注vllm/utils/flashinfer.py中设备能力检查的逻辑恢复，以及测试用例的同步更新。设计决策体现了“上游修复后及时清理临时补丁”的良好实践，但需注意对上游依赖的信任风险。

功能与动机

实现拆解

撤销核心逻辑限制：在vllm/utils/flashinfer.py中，supports_trtllm_attention()函数原本通过current_platform.is_device_capability_family(100)检查SM100支持；本次变更仅添加了一条注释说明，实际逻辑未变，但通过撤销#38730的提交，该函数已从使用is_device_capability（检查具体版本如10.0）恢复为使用is_device_capability_family（检查家族如10.x）。
更新文档生成器：tools/pre_commit/generate_attention_backend_docs.py中的_find_cc_in_function函数被重构，从同时处理is_device_capability_family和is_device_capability两种模式，简化为仅处理is_device_capability_family模式，以匹配恢复后的设备能力检查逻辑。
同步测试用例：tests/kernels/attention/test_use_trtllm_attention.py中的两个测试函数test_supports_non_sm100_platform和test_supports_sm100_without_artifactory，将其mock对象从current_platform.is_device_capability更新为current_platform.is_device_capability_family，确保测试与核心逻辑保持一致。

关键文件：

vllm/utils/flashinfer.py（模块工具函数；类别 source；类型 core-logic；符号 supports_trtllm_attention）: 核心逻辑文件，包含TRTLLM注意力支持检查的关键函数。
tools/pre_commit/generate_attention_backend_docs.py（模块预提交工具；类别 source；类型 configuration；符号 _find_cc_in_function）: 文档生成器，其逻辑需与核心代码的设备能力检查保持一致。
tests/kernels/attention/test_use_trtllm_attention.py（模块注意力测试；类别 test；类型 test-coverage；符号 test_supports_non_sm100_platform, test_supports_sm100_without_artifactory）: 测试文件，确保测试mock与恢复后的核心逻辑一致。

关键符号：supports_trtllm_attention, _find_cc_in_function, test_supports_non_sm100_platform, test_supports_sm100_without_artifactory

关键源码片段

`vllm/utils/flashinfer.py`

核心逻辑文件，包含TRTLLM注意力支持检查的关键函数。

@functools.cache
def supports_trtllm_attention() -> bool:
    """
    TRTLLM attention is supported if the platform is SM100,
    NVIDIA artifactory is accessible, and batch-invariant mode is not enabled.
    """
    # Batch-invariant mode disables TRTLLM attention
    if envs.VLLM_BATCH_INVARIANT:
        return False

    # Requires SM100 and NVIDIA artifactory to be accessible to download cubins
    # 注意：这里使用 is_device_capability_family(100) 检查 SM10x 家族（如 SM100、SM103）
    # 而非 is_device_capability(100) 仅检查 SM100，恢复了对更广泛设备的支持。
    return (
        current_platform.is_device_capability_family(100) and has_nvidia_artifactory()
    )

`tools/pre_commit/generate_attention_backend_docs.py`

文档生成器，其逻辑需与核心代码的设备能力检查保持一致。

def _find_cc_in_function(tree: ast.AST, func_name: str) -> str | None:
    """Find a compute capability from is_device_capability_family() calls in a function.

    Looks for the pattern: current_platform.is_device_capability_family(N)
    and converts N (e.g. 100) to a CC string (e.g. "10.x").
    # 变更：从支持两种模式（is_device_capability_family和is_device_capability）
    # 简化为仅支持is_device_capability_family，以反映核心逻辑的恢复。
    """
    for node in ast.walk(tree):
        if not isinstance(node, ast.FunctionDef) or node.name != func_name:
            continue
        for n in ast.walk(node):
            if (
                isinstance(n, ast.Call)
                and isinstance(n.func, ast.Attribute)
                and n.func.attr == "is_device_capability_family" # 仅匹配家族检查
                and n.args
                and isinstance(n.args[0], ast.Constant)
                and isinstance(n.args[0].value, int)
            ):
                return f"{n.args[0].value // 10}.x" # 返回家族版本，如 "10.x"
    return None

评论区精华

变更总结与批准 (other): 变更被接受，无争议。

风险与影响

风险：
1. 回归风险：撤销临时修复后，若上游FlashInfer修复不彻底或存在其他未发现的SM103兼容性问题，可能导致GB300设备再次出现死锁。风险集中在vllm/utils/flashinfer.py的supports_trtllm_attention函数。
2. 测试覆盖风险：测试用例的mock更新确保了与代码逻辑一致，但未增加针对SM103设备的集成测试，依赖上游修复的可靠性。
3. 文档一致性风险：文档生成器逻辑简化后，若未来代码中再次引入is_device_capability检查，可能导致生成的文档不准确。
影响：
1. 用户影响：使用GB300（SM103）等SM10x家族设备的用户将恢复TRTLLM注意力后端支持，可能提升推理性能；但若上游修复有问题，可能再次遭遇死锁。
2. 系统影响：恢复了TRTLLM注意力对更广泛设备家族（SM10x）的支持，增强了系统在NVIDIA新硬件上的兼容性。
3. 团队影响：清理了因上游bug引入的临时代码，减少了代码库的维护负担，但需要团队关注上游FlashInfer的稳定性。
  - 风险标记：上游依赖风险, 测试覆盖不足

关联脉络

PR #38730 [Bugfix] Restrict TRTLLM attention to SM100, fixing GB300 (SM103) hang: 本PR直接撤销了#38730的变更，该PR是临时修复FlashInfer死锁问题的源头。
PR #38791 [Bugfix] Fix test mocks after SM100 restriction in #38730: 本PR同时撤销了#38791，它是#38730的测试配套修复，与核心变更联动。
PR #39959 未提供标题，但从Issue评论提及: Issue评论指出#38730“部分但未完全在#39959中被撤销”，表明存在关联的撤销尝试。

#40032 Revert #38730 and #38791

执行摘要

撤销对 TRTLLM 注意力后端 SM100 限制的临时修复，恢复 SM10x 家族支持。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论