Prhub

#23698 docs(DeepSeek-V4): bump GB300 Pro PD decode --mem-fraction-static 0.83 → 0.9

原始 PR 作者 fzyzcjy 合并时间 2026-04-25 16:35 文件变更 1 提交数 1 评论 1 代码增减 +5 / -3

执行摘要

GB300 Pro PD decode 默认 mem-fraction 调至 0.9

原默认值 0.83 过于保守,在 GB300 Pro 上内存利用不充分。通过 mem-fraction 扫描验证,0.9 可在避免 OOM 的前提下提升 KV cache 容量,改善解码吞吐。

建议合并。变更简单明确,有实验数据支撑,风险低。团队无需精读,但可关注后续是否有用户反馈该参数调整后的实际效果。

讨论亮点

此 PR 没有 review 评论。提交信息中说明了静态烟雾测试覆盖了 0.83/0.87/0.89/0.91 四个值,均能正常加载模型并处理短 prompt,最终选择 0.9。

实现拆解

  1. docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 文件中,将 --mem-fraction-static 参数值从 0.83 修改为 0.9
  2. 更新相关注释,补充 mem-fraction 扫描结果(0.83/0.87/0.89/0.91 均通过静态烟雾测试),解释选择 0.9 的理由:保留约 14 GB/GPU 后 CG 余量,同时实现约 1M token KV pool。
文件 模块 状态 重要度
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 部署脚本 modified 5.1

关键源码片段

docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx core-logic

包含所有变更:mem-fraction 参数值从 0.83 改为 0.9,以及相关注释更新。

// ... 前置上下文
if (isGB300 && modelSize === "big") {
  flags.push("  --max-running-requests 128");
  // 原为 0.83,经静态烟雾测试验证 0.83/0.87/0.89/0.91 均通过,
  // 0.9 可保留约 14 GB/GPU 后 CG 余量,同时提供约 1M token KV pool。
  flags.push("  --mem-fraction-static 0.9");
  flags.push("  --cuda-graph-max-bs 128");
} else {
  flags.push("  --max-running-requests 256");
}
// ... 后续上下文

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。该变更仅为部署指南中的参数默认值调整,不涉及任何代码逻辑或运行时行为。但若用户直接沿用 cookbook 配置,较高的 mem-fraction 可能在极端 workload 下(如超长序列或大量并发)导致 OOM,不过注释已说明保留约 14 GB 余量,风险可控。

影响范围小,仅影响 GB300 Pro PD decode 角色的默认内存分配。直接收益是增加 KV cache 容量,可能提升长序列解码吞吐。间接影响是减少用户手动调参的试错成本。

参数默认值调整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论