# PR #25814 完整报告

- 仓库：`sgl-project/sglang`
- 标题：Update GLM-5 H200 FP8
- 合并时间：2026-05-20 14:44
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/25814

---

## 执行摘要

该 PR 为 GLM-5 的 H200 FP8 部署场景添加了 `--enable-flashinfer-allreduce-fusion` 标志，以利用 flashinfer 的 allreduce 融合优化提升通信性能。变更涉及部署交互组件和 cookbook 文档两个文件，改动极小，风险很低。

## 功能与动机

根据 [SemiAnalysisAI/InferenceX#1033](https://github.com/SemiAnalysisAI/InferenceX/issues/1033) 的建议，针对 GLM-5 H200 FP8 场景启用 flashinfer allreduce fusion。该标志此前已用于 B200 FP8 配置，功能经过验证，此次扩展至 H200 硬件以进一步提升 allreduce 性能。

## 实现拆解

1. **React 部署交互组件 **（`docs_new/src/snippets/autoregressive/glm-5-deployment.jsx`）：在 `GLM5Deployment` 组件的命令组装函数中，于 B200 FP8 分支之后新增 H200 FP8 分支。当 `hardware === 'h200'` 且 `effectiveQuant === 'fp8'` 时，在生成的命令中加入 `--enable-flashinfer-allreduce-fusion`。

2. **Cookbook 文档示例 **（`docs_new/cookbook/autoregressive/GLM/GLM-5.mdx`）：在 GLM-5 的示例 shell 命令中追加该标志，确保用户复制运行时能直接受益。

### `docs_new/src/snippets/autoregressive/glm-5-deployment.jsx`

核心变更文件，在 GLM-5 部署交互组件中为 H200 FP8 添加 flashinfer allreduce fusion 标志。

### 关键源码片段

### `docs_new/src/snippets/autoregressive/glm-5-deployment.jsx`

核心变更文件，在 GLM-5 部署交互组件中为 H200 FP8 添加 flashinfer allreduce fusion 标志。

```jsx
/* GLM-5 Deployment 组件：根据硬件和量化配置组装 sglang serve 命令 */
// 在 B200 FP8 分支之后，新增 H200 FP8 分支
if (hardware === 'b200' && effectiveQuant === 'fp8') {
  cmd += ' \
  --ep 1';
  cmd += ' \
  --quantization fp8';
  cmd += ' \
  --attention-backend nsa';
  cmd += ' \
  --nsa-decode-backend trtllm';
  cmd += ' \
  --nsa-prefill-backend trtllm';
  cmd += ' \
  --moe-runner-backend flashinfer_trtllm';
  cmd += ' \
  --enable-flashinfer-allreduce-fusion';
}

// 新增：H200 FP8 下启用 flashinfer allreduce fusion
if (hardware === 'h200' && effectiveQuant === 'fp8') {
  cmd += ' \
  --enable-flashinfer-allreduce-fusion';
}

```

## 评论区精华

无 review 讨论。

## 风险与影响

- **风险**：极低。新增标志已在 B200 FP8 场景中使用过，功能稳定。
- **影响**：仅限于 GLM-5 H200 FP8 部署场景，用户通过交互组件或 cookbook 生成的命令会自动包含该优化标志。

## 关联脉络

与 PR #25483（更新 Wan2.2 ModelOpt CI 检查点）同为文档与部署配置相关的变更，反映了持续优化 GPU 部署配置的维护工作。关联的 Issue #1033（SemiAnalysisAI/InferenceX）提供了原始建议。