执行摘要

移除 H20 设备对 FlashInfer AllReduce Fusion 的限制

此前因 FlashInfer 在 H20 设备上有编译问题（issue #2204），在启动参数中加入了设备检查以禁用 AllReduce Fusion。经测试确认该问题已解决，因此移除限制，让 H20 用户也能获得性能提升。

可直接合并。这是一次典型的技术债务清理，风险低且收益明确。其他硬件平台的维护者可以参考此做法：在条件允许时及时移除临时的硬件限制。

讨论亮点

仅有一名 reviewer（gemini-code-assist[bot]）添加了评论，指出 PR 内容清晰，无额外反馈。随后由 b8zhong 批准合并。无实质性讨论。

实现拆解

移除不再需要的导入：在 python/sglang/srt/server_args.py 中删除 get_device_name 的导入语句。
删除设备检测逻辑：移除 device_name = get_device_name() 和 is_h20_device 变量的定义及计算。
精简启用条件：从自动启用 AllReduce Fusion 的条件列表中移除 and not is_h20_device 这一项，使 H20 设备不再被排除。
清理注释：删除指向上游 bug 的 TODO 注释，保持代码整洁。

文件	模块	状态	重要度
`python/sglang/srt/server_args.py`	启动配置	modified	5.45

关键符号

_handle_model_specific_adjustments

关键源码片段

python/sglang/srt/server_args.py core-logic

唯一修改的文件，包含参数解析和启动配置的核心逻辑。移除了 H20 设备的检查，使 AllReduce Fusion 在满足其他条件时自动启用。

# python/sglang/srt/server_args.py ( 片段 )

# 移除了 get_device_name 导入；该函数不再使用
from sglang.srt.utils.common import (
    LORA_TARGET_ALL_MODULES,
    SUPPORTED_LORA_TARGET_MODULES,
    cpu_has_amx_support,
    get_device,
    get_device_memory_capacity,
    # get_device_name, # 已移除
    get_device_sm,
    ...
)

# ...

# 在 _handle_model_specific_adjustments 方法中
# TODO: 原 H20 检查已删除，因为上游 FlashInfer issue #2204 已修复
if (
    not self.enable_flashinfer_allreduce_fusion
    and model_arch in [
        "DeepseekV3ForCausalLM",
        "DeepseekV32ForCausalLM",
        "GptOssForCausalLM",
        "GlmMoeDsaForCausalLM",
        "Glm4MoeForCausalLM",
        "Glm4MoeLiteForCausalLM",
        "MistralLarge3ForCausalLM",
        "Qwen3MoeForCausalLM",
        "Qwen3NextForCausalLM",
        "KimiK25ForConditionalGeneration",
        "Qwen3_5MoeForConditionalGeneration",
        "InternS2PreviewForConditionalGeneration",
        "Qwen3_5ForConditionalGeneration",
    ]
    and (is_sm90_supported() or is_sm100_supported())
    and self.tp_size > 1
    and not self.enable_dp_attention
    and self.nnodes == 1
    # and not is_h20_device # 此条件已移除
    and self.moe_a2a_backend == "none"
):
    self.enable_flashinfer_allreduce_fusion = True
    logger.info(
        f"Auto - enabling FlashInfer AllReduce Fusion on SM90 / SM10X for {model_arch}"
    )

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低。变更仅移除了一个设备特定的限制条件，不涉及逻辑新增或行为变更。已在 H20 硬件上验证编译和运行正常。可能的风险是如果其他设备有类似问题需要区别处理，但当前条件判断已足够精确（基于 SM 版本而非设备名）。

用户影响：H20 GPU 用户现在可以自动启用 FlashInfer AllReduce Fusion 优化，提升 MoE 模型推理性能。其他用户无影响。
系统影响：无。
团队影响：代码更简洁，维护负担减轻。

关联 Issue

#2204 Compilation errors in `trtllm_allreduce_fusion.cuh: undefined AllReduceFusionPattern enum and std::optional`

#25027 [Bug] Currently disabling TRTLLM allreduce fusion on H20 device

完整报告

执行摘要

一句话：移除 H20 设备对 FlashInfer AllReduce Fusion 的限制
推荐动作：可直接合并。这是一次典型的技术债务清理，风险低且收益明确。其他硬件平台的维护者可以参考此做法：在条件允许时及时移除临时的硬件限制。

功能与动机

实现拆解

移除不再需要的导入：在 python/sglang/srt/server_args.py 中删除 get_device_name 的导入语句。
删除设备检测逻辑：移除 device_name = get_device_name() 和 is_h20_device 变量的定义及计算。
精简启用条件：从自动启用 AllReduce Fusion 的条件列表中移除 and not is_h20_device 这一项，使 H20 设备不再被排除。
清理注释：删除指向上游 bug 的 TODO 注释，保持代码整洁。

关键文件：

python/sglang/srt/server_args.py（模块启动配置；类别 source；类型 core-logic）: 唯一修改的文件，包含参数解析和启动配置的核心逻辑。移除了 H20 设备的检查，使 AllReduce Fusion 在满足其他条件时自动启用。

关键符号：_handle_model_specific_adjustments

关键源码片段

`python/sglang/srt/server_args.py`

唯一修改的文件，包含参数解析和启动配置的核心逻辑。移除了 H20 设备的检查，使 AllReduce Fusion 在满足其他条件时自动启用。

# python/sglang/srt/server_args.py ( 片段 )

# 移除了 get_device_name 导入；该函数不再使用
from sglang.srt.utils.common import (
    LORA_TARGET_ALL_MODULES,
    SUPPORTED_LORA_TARGET_MODULES,
    cpu_has_amx_support,
    get_device,
    get_device_memory_capacity,
    # get_device_name, # 已移除
    get_device_sm,
    ...
)

# ...

# 在 _handle_model_specific_adjustments 方法中
# TODO: 原 H20 检查已删除，因为上游 FlashInfer issue #2204 已修复
if (
    not self.enable_flashinfer_allreduce_fusion
    and model_arch in [
        "DeepseekV3ForCausalLM",
        "DeepseekV32ForCausalLM",
        "GptOssForCausalLM",
        "GlmMoeDsaForCausalLM",
        "Glm4MoeForCausalLM",
        "Glm4MoeLiteForCausalLM",
        "MistralLarge3ForCausalLM",
        "Qwen3MoeForCausalLM",
        "Qwen3NextForCausalLM",
        "KimiK25ForConditionalGeneration",
        "Qwen3_5MoeForConditionalGeneration",
        "InternS2PreviewForConditionalGeneration",
        "Qwen3_5ForConditionalGeneration",
    ]
    and (is_sm90_supported() or is_sm100_supported())
    and self.tp_size > 1
    and not self.enable_dp_attention
    and self.nnodes == 1
    # and not is_h20_device # 此条件已移除
    and self.moe_a2a_backend == "none"
):
    self.enable_flashinfer_allreduce_fusion = True
    logger.info(
        f"Auto - enabling FlashInfer AllReduce Fusion on SM90 / SM10X for {model_arch}"
    )

评论区精华

仅有一名 reviewer（gemini-code-assist[bot]）添加了评论，指出 PR 内容清晰，无额外反馈。随后由 b8zhong 批准合并。无实质性讨论。

暂无高价值评论线程

风险与影响

风险：风险极低。变更仅移除了一个设备特定的限制条件，不涉及逻辑新增或行为变更。已在 H20 硬件上验证编译和运行正常。可能的风险是如果其他设备有类似问题需要区别处理，但当前条件判断已足够精确（基于 SM 版本而非设备名）。
影响：用户影响：H20 GPU 用户现在可以自动启用 FlashInfer AllReduce Fusion 优化，提升 MoE 模型推理性能。其他用户无影响。
系统影响：无。
团队影响：代码更简洁，维护负担减轻。
风险标记：暂无

关联脉络

PR #25027 [Bug] Currently disabling TRTLLM allreduce fusion on H20 device: 此 issue 跟踪了 H20 设备上 AllReduce Fusion 被禁用的问题，当前 PR 正是为了解决它。

#26470 [Bug Fix] Remove H20 device check for FlashInfer AllReduce Fusion

执行摘要

移除 H20 设备对 FlashInfer AllReduce Fusion 的限制

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

关键源码片段

`python/sglang/srt/server_args.py`

评论区精华

风险与影响

关联脉络

参与讨论