#23698 docs(DeepSeek-V4): bump GB300 Pro PD decode --mem-fraction-static 0.83 → 0.9

原始 PR 作者 fzyzcjy 合并时间 2026-04-25 16:35 文件变更 1 提交数 1 评论 1 代码增减 +5 / -3

执行摘要

GB300 Pro PD decode 默认 mem-fraction 调至 0.9

原默认值 0.83 过于保守，在 GB300 Pro 上内存利用不充分。通过 mem-fraction 扫描验证，0.9 可在避免 OOM 的前提下提升 KV cache 容量，改善解码吞吐。

建议合并。变更简单明确，有实验数据支撑，风险低。团队无需精读，但可关注后续是否有用户反馈该参数调整后的实际效果。

讨论亮点

此 PR 没有 review 评论。提交信息中说明了静态烟雾测试覆盖了 0.83/0.87/0.89/0.91 四个值，均能正常加载模型并处理短 prompt，最终选择 0.9。

实现拆解

在 docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 文件中，将 --mem-fraction-static 参数值从 0.83 修改为 0.9。
更新相关注释，补充 mem-fraction 扫描结果（0.83/0.87/0.89/0.91 均通过静态烟雾测试），解释选择 0.9 的理由：保留约 14 GB/GPU 后 CG 余量，同时实现约 1M token KV pool。

文件	模块	状态	重要度
`docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx`	部署脚本	modified	5.1

关键源码片段

docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx core-logic

包含所有变更：mem-fraction 参数值从 0.83 改为 0.9，以及相关注释更新。

// ... 前置上下文
if (isGB300 && modelSize === "big") {
  flags.push("  --max-running-requests 128");
  // 原为 0.83，经静态烟雾测试验证 0.83/0.87/0.89/0.91 均通过，
  // 0.9 可保留约 14 GB/GPU 后 CG 余量，同时提供约 1M token KV pool。
  flags.push("  --mem-fraction-static 0.9");
  flags.push("  --cuda-graph-max-bs 128");
} else {
  flags.push("  --max-running-requests 256");
}
// ... 后续上下文

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低。该变更仅为部署指南中的参数默认值调整，不涉及任何代码逻辑或运行时行为。但若用户直接沿用 cookbook 配置，较高的 mem-fraction 可能在极端 workload 下（如超长序列或大量并发）导致 OOM，不过注释已说明保留约 14 GB 余量，风险可控。

影响范围小，仅影响 GB300 Pro PD decode 角色的默认内存分配。直接收益是增加 KV cache 容量，可能提升长序列解码吞吐。间接影响是减少用户手动调参的试错成本。

参数默认值调整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

将 DeepSeek-V4 GB300 Pro PD decode 角色的 --mem-fraction-static 默认值从 0.83 提升至 0.9，在避免 OOM 的前提下扩大 KV cache 容量，提升内存利用率。变更仅涉及部署指南中的参数值及注释，风险极低。

功能与动机

原默认值 0.83 在 GB300 Pro 上过于保守，导致显存利用不充分。通过 mem-fraction 扫描（0.83/0.87/0.89/0.91 均通过静态烟雾测试），发现 0.9 仍能安全运行，同时提供约 1M token 的 KV 缓存空间，每个 GPU 保留约 14 GB 用于 mooncake 传输和激活峰值，从而在不触发 OOM 的前提下提升解码吞吐。

实现拆解

步骤 1：修改参数值

在 docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 文件中，将 --mem-fraction-static 从 0.83 改为 0.9。

步骤 2：更新注释

补充 mem-fraction 扫描结果和选择 0.9 的技术理由，帮助用户理解为什么提升至此值。

变更代码片段（原注释简化为关键点）：

if (isGB300 && modelSize === "big") {
  flags.push("  --max-running-requests 128");
  // mem-frac sweep 0.83/0.87/0.89/0.91 均通过静态烟雾测试；
  // 0.9 保留 ~14 GB/GPU 后 CG 余量，同时提供 ~1M token KV pool。
  flags.push("  --mem-fraction-static 0.9");
  flags.push("  --cuda-graph-max-bs 128");
} else {
  flags.push("  --max-running-requests 256");
}

`docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx`

包含所有变更：mem-fraction 参数值从 0.83 改为 0.9，以及相关注释更新。

// ... 前置上下文
if (isGB300 && modelSize === "big") {
  flags.push("  --max-running-requests 128");
  // 原为 0.83，经静态烟雾测试验证 0.83/0.87/0.89/0.91 均通过，
  // 0.9 可保留约 14 GB/GPU 后 CG 余量，同时提供约 1M token KV pool。
  flags.push("  --mem-fraction-static 0.9");
  flags.push("  --cuda-graph-max-bs 128");
} else {
  flags.push("  --max-running-requests 256");
}
// ... 后续上下文

评论区精华

该 PR 无 review 评论。提交信息说明了静态烟雾测试覆盖范围。

风险与影响

风险：几乎不存在技术风险，因为这只是文档中的默认值调整，不修改任何代码逻辑。但极端 workload 下（如长序列、高并发）可能因 mem-fraction 提高而触发 OOM，不过注释已说明保留约 14 GB 余量，风险可控。
影响：影响范围为 GB300 Pro PD decode 角色的部署配置，提升 KV cache 容量，改善长序列解码性能，并减少用户手动调参成本。

关联脉络

本 PR 与近期多个 DeepSeek-V4 文档更新 PR（#23690、#23691、#23697）位于同一文件，持续优化 GB300 平台部署参数。该系列 PR 的演进方向是：在实验验证的基础上，逐步放宽保守的默认值，提升资源利用率和性能。

#23698 docs(DeepSeek-V4): bump GB300 Pro PD decode --mem-fraction-static 0.83 → 0.9

执行摘要

GB300 Pro PD decode 默认 mem-fraction 调至 0.9

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论