执行摘要
标记 GB300 上 DeepSeek-V4 CP/PD 配方验证通过
提供经过验证的 GB300 部署配置,解决实际测试中遇到的内存不足和 DeepEP 断言失败问题,确保用户能复制成功部署。
该 PR 为文档维护,建议合并。可关注后续是否需扩展至其他硬件或配方。
该 PR 无 review 评论,变更由作者直接合并。
提供经过验证的 GB300 部署配置,解决实际测试中遇到的内存不足和 DeepEP 断言失败问题,确保用户能复制成功部署。
该 PR 为文档维护,建议合并。可关注后续是否需扩展至其他硬件或配方。
该 PR 无 review 评论,变更由作者直接合并。
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 的 VERIFIED_RECIPES 集合中添加了 gb300|small|cp、gb300|big|cp、gb300|small|pd-disagg、gb300|big|pd-disagg 四项,使这些配方在文档中呈现为可运行的命令。mem-fraction-static 设置中,针对 gb300|big 硬件,将默认的 0.78 提高至 0.88(基于 GB300 显存总量 273 GB 和 Pro 权重约 224 GB 的实际测试),确保 KV pool 初始化成功。SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK 环境变量(big 为 256,small 为 1024),防止 deep_ep.cpp 断言失败。DeepSeek-V4.mdx 中添加章节,指导用户遇到 mooncake NVLink 传输失败时添加 MC_FORCE_MNNVL 等环境变量。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx |
部署配方 | modified | 6.44 |
docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx |
部署文档 | modified | 2.81 |
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx
core-logic
核心变更文件,包含所有配方标记和环境变量修复逻辑
// 在 VERIFIED_RECIPES 中添加 GB300 的 cp 和 pd-disagg 配方
const VERIFIED_RECIPES = new Set([
"b200|small|low-latency",
// ... 其他已验证配方
"gb300|small|cp",
"gb300|big|cp",
"gb300|small|pd-disagg",
"gb300|big|pd-disagg",
]);
// cp 配方中,GB300 big 需要更高的 mem-fraction-static 以避免内存不足
// GB300 big CP: Pro 1.6T 权重在 tp=4 时约 224 GB / 卡,
// 0.78 会导致 KV pool 初始化失败,0.88 为经验值
if (hardware === "gb300" && isBig) {
flags.push(" --mem-fraction-static 0.88");
} else {
flags.push(" --mem-fraction-static 0.78");
}
// GB300 PD 模式下设置 DeepEP 分派 buffer 上限,防止 deep_ep.cpp 断言失败
if (isGB300) {
// big 模型 max-running-requests 128,per-rank=32 ≤ 256
// small 模型 max-running-requests 256,per-rank=64 ≤ 1024
roleEnv.push(modelSize === "big"
? "SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256"
: "SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=1024");
}
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
该 PR 仅修改文档片段和配置常量,不涉及运行时代码,风险极低。但需注意:
用户可按文档一键复制已验证的 GB300 部署命令,减少试错成本。系统无影响。团队内降低 GB300 部署支持负担。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论