Prhub

#23691 docs(DeepSeek-V4): mark gb300|{small,big}|{cp,pd-disagg} verified + GB300-specific fixes

原始 PR 作者 fzyzcjy 合并时间 2026-04-25 12:21 文件变更 2 提交数 4 评论 1 代码增减 +56 / -5

执行摘要

标记 GB300 上 DeepSeek-V4 CP/PD 配方验证通过

提供经过验证的 GB300 部署配置,解决实际测试中遇到的内存不足和 DeepEP 断言失败问题,确保用户能复制成功部署。

该 PR 为文档维护,建议合并。可关注后续是否需扩展至其他硬件或配方。

讨论亮点

该 PR 无 review 评论,变更由作者直接合并。

实现拆解

  1. 标记已验证配方:在文件 docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsxVERIFIED_RECIPES 集合中添加了 gb300|small|cpgb300|big|cpgb300|small|pd-disagggb300|big|pd-disagg 四项,使这些配方在文档中呈现为可运行的命令。
  2. 修正 GB300 big CP 的内存比例:在 cp 配方的 mem-fraction-static 设置中,针对 gb300|big 硬件,将默认的 0.78 提高至 0.88(基于 GB300 显存总量 273 GB 和 Pro 权重约 224 GB 的实际测试),确保 KV pool 初始化成功。
  3. 添加 DeepEP 分派 buffer 上限环境变量:对于 GB300 的 PD 模式,根据模型大小设置 SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK 环境变量(big 为 256,small 为 1024),防止 deep_ep.cpp 断言失败。
  4. 文档新增 GB300 MNNVL 跨 pod 问题说明:在 DeepSeek-V4.mdx 中添加章节,指导用户遇到 mooncake NVLink 传输失败时添加 MC_FORCE_MNNVL 等环境变量。
文件 模块 状态 重要度
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 部署配方 modified 6.44
docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx 部署文档 modified 2.81

关键源码片段

docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx core-logic

核心变更文件,包含所有配方标记和环境变量修复逻辑

// 在 VERIFIED_RECIPES 中添加 GB300 的 cp 和 pd-disagg 配方
const VERIFIED_RECIPES = new Set([
  "b200|small|low-latency",
  // ... 其他已验证配方
  "gb300|small|cp",
  "gb300|big|cp",
  "gb300|small|pd-disagg",
  "gb300|big|pd-disagg",
]);// cp 配方中,GB300 big 需要更高的 mem-fraction-static 以避免内存不足
// GB300 big CP: Pro 1.6T 权重在 tp=4 时约 224 GB / 卡,
// 0.78 会导致 KV pool 初始化失败,0.88 为经验值
if (hardware === "gb300" && isBig) {
  flags.push("  --mem-fraction-static 0.88");
} else {
  flags.push("  --mem-fraction-static 0.78");
}// GB300 PD 模式下设置 DeepEP 分派 buffer 上限,防止 deep_ep.cpp 断言失败
if (isGB300) {
  // big 模型 max-running-requests 128,per-rank=32 ≤ 256
  // small 模型 max-running-requests 256,per-rank=64 ≤ 1024
  roleEnv.push(modelSize === "big"
    ? "SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256"
    : "SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=1024");
}

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

该 PR 仅修改文档片段和配置常量,不涉及运行时代码,风险极低。但需注意:

  • 添加的环境变量和内存比例参数基于特定集群(GCP a4x)验证,不同硬件拓扑可能需调整。
  • 若后续硬件或模型权重变化,这些硬编码值可能失效。

用户可按文档一键复制已验证的 GB300 部署命令,减少试错成本。系统无影响。团队内降低 GB300 部署支持负担。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论