Prhub

#23719 add H100 configs for GLM-4.7-Flash

原始 PR 作者 BBuf 合并时间 2026-04-27 15:07 文件变更 2 提交数 2 评论 2 代码增减 +308 / -0

执行摘要

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

SGLang 在 H100 上运行 GLM-4.7-Flash 时,因缺少对应形状的 Triton fused MoE 配置而回退到默认配置,在服务器日志和性能分析中暴露为可测量的延迟。本 PR 补全了这些缺失配置。

建议合并,但需同时更新 supported_triton_versions 注册 triton_3_5_1 目录,或调整配置目录为现有支持版本目录,以确保配置被正常加载。

讨论亮点

gemini-code-assist[bot] 在 review 中指出:新配置放置在 triton_3_5_1 目录,但该版本未在 supported_triton_versions 列表中注册,因此配置不会被作为 fallback 发现。建议要么将配置移至已支持的目录,要么更新支持版本列表。该问题未在 PR 中得到解决。

实现拆解

  1. triton_3_5_1 目录下新增 E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3.json 文件,包含从 M=18192 共 18 个条目的 BLOCK_SIZE、num_warps、num_stages 参数。
  2. 新增对应的 E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3_down.json 文件,内容与主文件相同,用于 down-projection 的 fused MoE 配置。
  3. 两个文件均为纯配置,不涉及 Python/Triton/CUDA 逻辑修改。配置基于邻近的 vLLM H100 E=64 配置初始生成,并通过真实模型 A/B 测试验证。
文件 模块 状态 重要度
python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3.json MoE 配置 added 5.49
python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=65,N=1536,device_name=NVIDIA_H100_80GB_HBM3_down.json MoE 配置 added 5.49

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

配置目录未在 supported_triton_versions 中注册 正确性

gemini-code-assist[bot] 指出 `triton_3_5_1` 目录未被注册到 `supported_triton_versions`,导致配置不会被其他 Triton 版本用户发现作为 fallback。建议要么移动目录到支持版本下,要么更新支持版本列表。

结论:未解决,PR 未做相应修改。 · unresolved

风险与影响

风险极低,仅涉及配置文件新增,不影响现有逻辑。但目录未注册可能导致配置不生效,用户仍需手动指定 Triton 版本为 3.5.1,否则继续使用默认 fallback。此外,配置未覆盖所有可能的 M 值,但通过插值机制可处理。

影响范围限于 GLM-4.7-Flash 模型在 H100 GPU 上的 MoE 层推理性能。量产后,chat 场景 TTFT 改善约 16%,summarization 场景 TTFT 改善约 24%,TPOT 也有小幅提升。吞吐量保持稳定,无明显负面影响。

配置版本未注册可能不生效

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论