#23719 add H100 configs for GLM-4.7-Flash

原始 PR 作者 BBuf 合并时间 2026-04-27 15:07 文件变更 2 提交数 2 评论 2 代码增减 +308 / -0

执行摘要

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

SGLang 在 H100 上运行 GLM-4.7-Flash 时，因缺少对应形状的 Triton fused MoE 配置而回退到默认配置，在服务器日志和性能分析中暴露为可测量的延迟。本 PR 补全了这些缺失配置。

建议合并，但需同时更新 supported_triton_versions 注册 triton_3_5_1 目录，或调整配置目录为现有支持版本目录，以确保配置被正常加载。

讨论亮点

gemini-code-assist[bot] 在 review 中指出：新配置放置在 triton_3_5_1 目录，但该版本未在 supported_triton_versions 列表中注册，因此配置不会被作为 fallback 发现。建议要么将配置移至已支持的目录，要么更新支持版本列表。该问题未在 PR 中得到解决。

实现拆解

在 triton_3_5_1 目录下新增 E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3.json 文件，包含从 M=1 到 8192 共 18 个条目的 BLOCK_SIZE、num_warps、num_stages 参数。
新增对应的 E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3_down.json 文件，内容与主文件相同，用于 down-projection 的 fused MoE 配置。
两个文件均为纯配置，不涉及 Python/Triton/CUDA 逻辑修改。配置基于邻近的 vLLM H100 E=64 配置初始生成，并通过真实模型 A/B 测试验证。

文件	模块	状态	重要度
`python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3.json`	MoE 配置	added	5.49
`python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3_down.json`	MoE 配置	added	5.49

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

配置目录未在 supported_triton_versions 中注册 正确性

gemini-code-assist[bot] 指出 `triton_3_5_1` 目录未被注册到 `supported_triton_versions`，导致配置不会被其他 Triton 版本用户发现作为 fallback。建议要么移动目录到支持版本下，要么更新支持版本列表。

结论：未解决，PR 未做相应修改。 · unresolved

风险与影响

风险极低，仅涉及配置文件新增，不影响现有逻辑。但目录未注册可能导致配置不生效，用户仍需手动指定 Triton 版本为 3.5.1，否则继续使用默认 fallback。此外，配置未覆盖所有可能的 M 值，但通过插值机制可处理。

影响范围限于 GLM-4.7-Flash 模型在 H100 GPU 上的 MoE 层推理性能。量产后，chat 场景 TTFT 改善约 16%，summarization 场景 TTFT 改善约 24%，TPOT 也有小幅提升。吞吐量保持稳定，无明显负面影响。

配置版本未注册可能不生效

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR 分析报告：为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

执行摘要

本 PR 为 GLM-4.7-Flash 在 H100 GPU 上补充缺失的 Triton fused MoE 内核配置，避免 fallback 带来的性能损失。仅新增两个 JSON 配置文件，实测 TTFT 降低 16%~24%。需关注配置文件目录版本注册问题。

功能与动机

在 H100 上运行 GLM-4.7-Flash 时，SGLang 因缺少 E=65,N=1536 形状的配置而回退到默认 Triton MoE 配置，导致显著延迟。PR 作者 BBuf 在 profiling 中捕捉到该回退，并通过 A/B 测试验证了优化收益。

实现拆解

主配置：新增 E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3.json，包含 M=1 到 8192 共 18 个条目的 BLOCK_SIZE、num_warps、num_stages 参数。M 值覆盖 [1,2,4,8,16,24,32,48,64,96,128,256,512,1024,1536,2048,3072,4096,8192]。
Down 配置：新增同名带 _down 后缀的文件，内容与主配置一致，用于 down-projection 的 fused MoE。
验证：配置基于 vLLM 的 E=64 配置初始生成，并在真实模型 zai-org/GLM-4.7-Flash 上通过两轮 A/B 测试确认性能提升。

以下为新增配置文件的完整内容，展示了不同 M 值下的 Triton 内核启动参数：

{
    "1": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 4,
        "num_stages": 3
    },
    "2": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 4,
        "num_stages": 4
    },
    "4": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 256,
        "GROUP_SIZE_M": 16,
        "num_warps": 4,
        "num_stages": 3
    },
    "8": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 32,
        "BLOCK_SIZE_K": 256,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 2
    },
    "16": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 32,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 4,
        "num_stages": 5
    },
    "24": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 256,
        "GROUP_SIZE_M": 32,
        "num_warps": 4,
        "num_stages": 2
    },
    "32": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "48": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "64": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "96": {
        "BLOCK_SIZE_M": 32,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "128": {
        "BLOCK_SIZE_M": 32,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "256": {
        "BLOCK_SIZE_M": 64,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "512": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 3
    },
    "1024": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 4
    },
    "1536": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 4
    },
    "2048": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 4
    },
    "3072": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 32,
        "num_warps": 8,
        "num_stages": 4
    },
    "4096": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 4
    },
    "8192": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 64,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 4
    }
}

评论区精华

gemini-code-assist[bot] 指出配置放在 triton_3_5_1 目录但该版本未在 supported_triton_versions 中注册，导致配置不会被 fallback 发现。建议要么移动目录要么注册版本。该问题未被解决。

风险与影响

风险极低：纯配置文件，不涉及代码逻辑。
主要风险：若目录未注册，配置可能不生效，用户需确保 Triton 版本为 3.5.1 或手动更新支持列表。
影响范围限于 GLM-4.7-Flash 在 H100 上的 MoE 性能，TTFT 收益显著。

关联脉络

本 PR 是 GLM-4.7-Flash 模型 H100 优化链的一环，与近期 MoE 重构 PR（如 #23707 废弃 act_and_mul_triton）无直接依赖，但共享同一 MoE 配置框架。未来类似模型可直接参考此配置模板。

#23719 add H100 configs for GLM-4.7-Flash

执行摘要

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论