Prhub

#23682 Add fused moe triton config for Qwen3.5-397B-A17B-FP8

原始 PR 作者 zhendonghua 合并时间 2026-04-25 09:35 文件变更 1 提交数 1 评论 2 代码增减 +146 / -0

执行摘要

新增 Qwen3.5-397B MoE Triton 调优配置

Qwen3.5-397B-A17B-FP8 在 Fused MoE Triton Kernel 上未经过针对性调优,导致 H100 GPU 上的吞吐性能次优。本 PR 通过运行调优脚本生成专用于该模型和硬件组合的配置,以释放硬件性能。

建议合并。该 PR 为纯增量配置,无风险,性能提升明确。值得关注的是 SGLang 的 MoE 调优框架可以自动加载此类配置,为未来模型适配提供良好范例。

讨论亮点

该 PR 无 review 讨论,仅有一条来自作者的说明:此配置为调查 Issue #23500 时的附带优化成果。

实现拆解

  1. 确定模型与硬件参数:目标模型为 Qwen/Qwen3.5-397B-A17B-FP8,张量并行度 8,GPU 为 NVIDIA H100 80GB HBM3,数据类型 FP8 w8a8。
  2. 运行内核调优脚本:使用 SGLang 提供的 benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py 脚本,执行调优。
  3. 收集调优结果:脚本针对不同解码批次大小(1,2,4,…,4096)输出最优的 Triton 内核参数,包括 BLOCK_SIZE_MBLOCK_SIZE_NBLOCK_SIZE_KGROUP_SIZE_Mnum_warpsnum_stages
  4. 生成配置文件:将结果整理为 JSON 文件,按 SGLang MoE 运行时的命名规范放置于 python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128, 128].json
  5. 验证与集成:配置会被运行时自动加载,无需代码改动。基准测试验证了显著的性能提升。

以下为配置文件中批次大小 16 时的典型条目(其他大小类似但参数有调整):

文件 模块 状态 重要度
python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128, 128].json MoE 配置 added 5.86

关键源码片段

python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128, 128].json configuration

新增 Qwen3.5-397B-A17B-FP8 在 H100 上的 Fused MoE Triton 调优参数配置,直接提升解码吞吐量。

{
  // 批次大小 16 时的最优调优参数
  "16": {
    "BLOCK_SIZE_M": 16, // M 维度 tile 大小,较小值适配小批次
    "BLOCK_SIZE_N": 64, // N 维度 tile 大小,平衡计算与访存
    "BLOCK_SIZE_K": 128, // K 维度 tile 大小,固定为 128 匹配 FP8 block shape
    "GROUP_SIZE_M": 64, // M 方向分组大小,影响并行度
    "num_warps": 4, // 每个 thread block 包含 4 个 warp
    "num_stages": 3 // 软件流水线阶段数,控制寄存器占用
  }
}

评论区精华

Side fix 关联 Issue #23500 question

作者 zhendonghua 在评论中提到,该配置是在调查 Issue #23500 时发现的附带优化。

结论:无进一步讨论,PR 直接合并。 · mentioned

风险与影响

风险很低。该配置仅针对 H100 GPU 和 FP8 w8a8 精度,其他硬件不会加载此文件,不会造成回归。未来若 Triton kernel 或模型结构变化,该配置可能过期,但由于是独立文件,更新和替代都较容易。

对用户:使用 Qwen3.5-397B-A17B-FP8 在 H100 上推理的用户可获得最高约 11% 的解码吞吐提升,尤其是高并发场景效果显著。对系统:无运行时副作用,纯增量配置。对团队:维护成本极低,且提供了在 SGLang MoE 框架中添加新调优配置的参考示例。

硬件特定配置 低回归风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论