#23943 [Docs] Add single-node H200 DeepSeek-V4-Pro low-latency recipe

原始 PR 作者 yhyang201 合并时间 2026-04-28 23:03 文件变更 1 提交数 1 评论 3 代码增减 +32 / -0

执行摘要

新增 H200 单节点 DeepSeek-V4-Pro 低延迟部署方案

用户希望在 H200 单节点上以低延迟运行 DeepSeek-V4-Pro，而现有 cookbook 仅提供多节点方案。PR Body 明确指出："Add a TP=8 single-node variant (Marlin backend) for H200 + DeepSeek-V4-Pro low-latency cookbook recipe"，同时保留已有的多节点命令供参考。

对于文档维护者，建议：

1) 核实并修正模型路径以确保 H200 兼容性；
2) 考虑提取验证逻辑为辅助函数避免重复。对于普通读者，此 PR 属于纯文档增强，无需深入代码细节，但可参考其中的参数组合了解 H200 上 DeepSeek-V4-Pro 的典型低延迟配置。

讨论亮点

模型路径兼容性问题：reviewer gemini-code-assist[bot] 指出指定模型路径 deepseek-ai/DeepSeek-V4-Pro 可能与 H200 平台不兼容。理由是 H200 GPU 只能运行 FP8 检查点，而 deepseek-ai 仓库提供的权重包含 FP4 混合精度。建议使用 sgl-project 的 FP8 兼容模型路径。

代码重复：reviewer 指出新分支中的验证逻辑（TBD/VERIFIED 检查）与第 517-521 行原有逻辑重复，未来维护需要同步修改两处。

采纳情况：PR 已被仓库管理员 ispobock 批准且合并，但未在公开评论中回应上述讨论。需确认模型路径已在合并前或后续修复。

实现拆解

定位入口：在 docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 文件的 buildAllinoneCommand 函数中，在原有的 verifyKey 验证逻辑之前插入新条件分支。
条件判断：通过 hardware === "h200" && isBig && recipe === "low-latency" 精准命中 H200 大模型低延迟场景，不干扰其他硬件/模型/配方的命令行生成。
构造单节点命令：定义 singleFlags 数组，包含 11 项参数：--trust-remote-code、--model-path deepseek-ai/DeepSeek-V4-Pro、--tp 8、--moe-runner-backend marlin、--speculative-algo EAGLE 等关键设置。同时根据 UI 开关(toolcall, reasoningParser) 追加解析器参数。
合并输出：将单节点命令与原有的多节点命令 (withMultinode) 通过注释头拼接，格式化为“# --- Single-Node (TP=8, Marlin) ---”和“# --- Multi-Node (2 nodes, TP=16, DP-Attn + DeepEP) ---”两个独立代码块。
验证与 fallback：复用原有的 VERIFIED_RECIPES / TBD_RECIPES 映射决定是否显示为已确认、待确认或注释状态。

文件	模块	状态	重要度
`docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx`	文档组件	modified	6.19

关键源码片段

docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx core-logic

唯一变更文件，新增 H200 单节点低延迟命令生成分支

// 在 buildAllinoneCommand 函数中，原有 verifyKey 逻辑前插入
// H200 Pro low-latency: show BOTH a single-node (TP=8 marlin) variant
// and the existing multi-node (TP=16 DP-attn + DeepEP) variant.
if (hardware === "h200" && isBig && recipe === "low-latency") {
  const singleFlags = [
    "  --trust-remote-code",
    "  --model-path deepseek-ai/DeepSeek-V4-Pro", // 注意：review 指出 H200 需要 FP8 模型，此处路径可能错误
    "  --tp 8", // 单节点 8 卡 TP
    "  --moe-runner-backend marlin", // Marlin 后端适用于 H200 (FP8)
    "  --speculative-algo EAGLE", // 使用 EAGLE 投机解码降低延迟
    "  --speculative-num-steps 3",
    "  --speculative-eagle-topk 1",
    "  --speculative-num-draft-tokens 4",
    "  --chunked-prefill-size 4096", // 分块预填充大小
    "  --disable-flashinfer-autotune",
    "  --mem-fraction-static 0.88", // 静态内存分配比例
  ];
  // 根据 UI 开关追加可选的解析器参数
  if (toolcall === "enabled") singleFlags.push("  --tool-call-parser deepseekv4");
  if (reasoningParser === "enabled") singleFlags.push("  --reasoning-parser deepseek-v4");
  singleFlags.push("  --host 0.0.0.0");
  singleFlags.push("  --port 30000");

  const singleNodeCmd = `sglang serve \\
${singleFlags.join(" \\
")}`;
  // 拼接单节点和多节点命令，用注释分隔
  const combined =
    `# --- Single-Node (TP=8, Marlin) ---\n${singleNodeCmd}\n\n` +
    `# --- Multi-Node (2 nodes, TP=16, DP-Attn + DeepEP) ---\n${withMultinode}`;

  // 复用验证状态检查，但 reviewer 指出此逻辑与后续重复
  const verifyKey = `${hardware}|${modelSize}|${recipe}`;
  if (TBD_RECIPES.has(verifyKey)) return TBD_PLACEHOLDER;
  return VERIFIED_RECIPES.has(verifyKey)
    ? combined
    : `${BEING_VERIFIED_NOTE}\n${commentOutCommand(combined)}`;
}

评论区精华

模型路径与硬件兼容性 正确性

gemini-code-assist[bot] 指出 `deepseek-ai/DeepSeek-V4-Pro` 模型路径可能不适用于 H200，因为 H200 只支持 FP8 权重，而该模型包含 FP4 混合精度。建议使用 `sgl-project` 的 FP8 兼容模型。

结论：未在评论中回应，PR 被批准合并，但兼容性问题未解决，后续可能需跟进修复。 · unresolved

验证逻辑重复 设计

gemini-code-assist[bot] 指出新分支中的 TBD/VERIFIED 检查逻辑与第 517-521 行原有逻辑重复，建议重构为共享辅助函数。

结论：未重构，PR 直接合并。 · unresolved

风险与影响

模型兼容性：若 deepseek-ai/DeepSeek-V4-Pro 路径指向 FP4 混合精度权重，在 H200 (仅支持 FP8) 上运行时可能导致加载失败或精度异常（参见 review 讨论）。
文档误导：用户可能直接复制单节点命令部署，若路径不可用会导致首次体验失败，影响产品口碑。
低影响范围：仅影响 cookbook 页面中 H200+big+低延迟这一个组合的显示，不影响其他硬件/配方。核心运行时库未修改。

用户侧：支持 8×H200 单节点部署 DeepSeek-V4-Pro 的用户，获得低延迟调优命令模板（含 EAGLE 投机解码、Marlin 后端等优化参数）。
系统侧：无变更。
团队侧：后续如需调整低延迟参数或模型路径，需同步修改此 JSX 文件。

文档可能存在不兼容的命令代码重复

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 为 DeepSeek-V4-Pro 低延迟部署文档（cookbook）新增 H200 单节点 (TP=8, Marlin 后端) 变体，与已有的多节点命令并列显示。仅修改一个 JSX 源码文件 deepseek-v4-deployment.jsx。

功能与动机

用户希望在 H200 单节点上以低延迟运行 DeepSeek-V4-Pro，而现有 cookbook 仅提供多节点方案。PR Body 指出："Add a TP=8 single-node variant (Marlin backend) for H200 + DeepSeek-V4-Pro low-latency cookbook recipe"。

实现拆解

新增条件分支：在 buildAllinoneCommand 函数中原有 verifyKey 逻辑之前，插入 if (hardware === "h200" && isBig && recipe === "low-latency") 分支，精确命中 H200 大模型低延迟场景。
构造单节点命令数组：定义 singleFlags 数组，包含 11 项参数，涵盖模型路径、并行度 (--tp 8)、Marlin 后端 (--moe-runner-backend marlin)、EAGLE 投机解码配置、分块预填充大小、FlashInfer 自动调优禁用以及静态内存比例等。同时根据 UI 开关追加可选的解析器参数（tool-call-parser / reasoning-parser）。
拼接输出：将单节点命令与原有多节点命令 (withMultinode) 通过注释头拼接为两个独立代码块，分别标注 "Single-Node (TP=8, Marlin)" 和 "Multi-Node (2 nodes, TP=16, DP-Attn + DeepEP)"。
验证状态复用：沿用原有的 VERIFIED_RECIPES / TBD_RECIPES 映射决定最终显示为已确认、待确认或注释状态。

`docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx`

唯一变更文件，新增 H200 单节点低延迟命令生成分支

关键源码片段

`docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx`

唯一变更文件，新增 H200 单节点低延迟命令生成分支

// 在 buildAllinoneCommand 函数中，原有 verifyKey 逻辑前插入
// H200 Pro low-latency: show BOTH a single-node (TP=8 marlin) variant
// and the existing multi-node (TP=16 DP-attn + DeepEP) variant.
if (hardware === "h200" && isBig && recipe === "low-latency") {
  const singleFlags = [
    "  --trust-remote-code",
    "  --model-path deepseek-ai/DeepSeek-V4-Pro", // 注意：review 指出 H200 需要 FP8 模型，此处路径可能错误
    "  --tp 8", // 单节点 8 卡 TP
    "  --moe-runner-backend marlin", // Marlin 后端适用于 H200 (FP8)
    "  --speculative-algo EAGLE", // 使用 EAGLE 投机解码降低延迟
    "  --speculative-num-steps 3",
    "  --speculative-eagle-topk 1",
    "  --speculative-num-draft-tokens 4",
    "  --chunked-prefill-size 4096", // 分块预填充大小
    "  --disable-flashinfer-autotune",
    "  --mem-fraction-static 0.88", // 静态内存分配比例
  ];
  // 根据 UI 开关追加可选的解析器参数
  if (toolcall === "enabled") singleFlags.push("  --tool-call-parser deepseekv4");
  if (reasoningParser === "enabled") singleFlags.push("  --reasoning-parser deepseek-v4");
  singleFlags.push("  --host 0.0.0.0");
  singleFlags.push("  --port 30000");

  const singleNodeCmd = `sglang serve \\
${singleFlags.join(" \\
")}`;
  // 拼接单节点和多节点命令，用注释分隔
  const combined =
    `# --- Single-Node (TP=8, Marlin) ---\n${singleNodeCmd}

` +
    `# --- Multi-Node (2 nodes, TP=16, DP-Attn + DeepEP) ---\n${withMultinode}`;

  // 复用验证状态检查，但 reviewer 指出此逻辑与后续重复
  const verifyKey = `${hardware}|${modelSize}|${recipe}`;
  if (TBD_RECIPES.has(verifyKey)) return TBD_PLACEHOLDER;
  return VERIFIED_RECIPES.has(verifyKey)
    ? combined
    : `${BEING_VERIFIED_NOTE}\n${commentOutCommand(combined)}`;
}

评论区精华

模型路径兼容性问题：reviewer gemini-code-assist[bot] 指出 deepseek-ai/DeepSeek-V4-Pro 路径可能无法在 H200 上正常运行。因为 H200 仅支持 FP8 权重，而该仓库的权重包含 FP4 混合精度。建议使用 sgl-project 提供的 FP8 兼容模型。
代码重复：新分支中的 TBD/VERIFIED 验证逻辑与第 517-521 行原有逻辑完全相同，若未来状态列表更新需同步修改两处。
以上问题均未在公开评论中回应，PR 已被批准合并。

风险与影响

模型兼容性：若用户直接复制文档中的 --model-path deepseek-ai/DeepSeek-V4-Pro 命令，在 H200 上执行可能因 FP4 权重重载失败。这是 review 中明确指出的高风险问题。
文档误导：不兼容的命令会使用户首次部署失败，降低对 SGLang 文档的信任。
影响范围：仅影响 cookbook 页面中 H200+big+低延迟这一个组合的渲染逻辑，其他硬件和配方不受影响。

关联脉络

本 PR 与 #23883 (Enable DeepGemm warmup in DeepSeek-V4 cookbook) 同为 DeepSeek-V4 cookbook 的文档扩充，修改同一 JSX 文件，扩展命令行参数集合。
与 #23836 (diffusion 默认种子变更) 同属文档/配置微调类 PR，展示了 SGLang 团队持续优化文档以支持更多硬件部署方式的趋势。

#23943 [Docs] Add single-node H200 DeepSeek-V4-Pro low-latency recipe

执行摘要

新增 H200 单节点 DeepSeek-V4-Pro 低延迟部署方案

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论