Prhub

#23689 docs(DeepSeek-V4): mark b200|small|pd-disagg + h200|small|{cp,pd-disagg} verified

原始 PR 作者 fzyzcjy 合并时间 2026-04-25 11:57 文件变更 2 提交数 4 评论 1 代码增减 +22 / -1

执行摘要

标记 B200/H200 上 DeepSeek-V4 多部署方案验证通过

根据 PR 提交信息,多个硬件/模型组合的端到端验证已完成,需要在文档中标记为已验证以确保用户得到的配方是可运行的。PR 中还处理了部分未能提供配方的场景(如 h200|big|cp),通过添加 TBD 机制给出清晰提示。

该 PR 是典型的文档状态更新,无需精读。但其中的 TBD_RECIPES 机制值得注意:它将“未提供”与“未验证”两种状态区分开来,避免未提供的配方输出被注释掉的无效命令,提升了用户体验。如果团队需要维护类似的配置清单式文档,可借鉴此模式。

讨论亮点

无审核评论,仅在 PR 内部有作者多轮 commit 逐步完善:

  • 初始提交标记验证结果
  • 随后补充 H200 CP/PD-Disagg 验证和笔记刷新
  • 将特权说明措辞从“需要”改为“可能需要”
  • 最后为 h200|big|cp 添加 TBD 占位符,避免生成被注释掉的无效命令
    没有外部 reviewer 参与讨论。

实现拆解

  1. 标记已验证配方docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx):在 VERIFIED_RECIPES 集合中新增 "b200|small|pd-disagg""h200|small|cp""h200|small|pd-disagg" 三个条目,并添加注释说明 h200|big|pd-disagg 还在等待 4 节点 H200 集群验证。
  2. 添加 TBD 机制docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx):新增 TBD_RECIPES 集合和 TBD_PLACEHOLDER 常量;在生成单个和 PD-Disagg 命令前增加检查,若配方在 TBD 集合中则直接返回占位符 "# to be provided",避免输出无效命令。
  3. 更新文档注释docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx):将 H200 镜像和检查点的“即将推出”说明改为“已公开可用”;补充 PD-Disagg 配方运行可能需要 --privileged--device /dev/infiniband 等权限才能让 mooncake 发现 IB 设备,否则回落到 TCP 可能导致大检查点 KV 传输出错。
文件 模块 状态 重要度
docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx 部署代码段 modified 5.75
docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx 文档手册 modified 2.94

关键源码片段

docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx core-logic

主变更文件,更新已验证配方集合、新增 TBD 机制、调整命令生成逻辑

// docs_new/src/snippets/autoregressive/deepseek-v4-deployment.jsx
// 已验证配方集合,标记了端到端验证通过的硬件 | 模型大小 | 部署方案组合
const VERIFIED_RECIPES = new Set([
  "b200|small|low-latency",
  "b200|small|balanced",
  "b200|small|max-throughput",
  "b200|small|cp",
  "b200|small|pd-disagg", // 新增:B200 small PD-Disagg 已验证
  "b200|big|low-latency",
  "b200|big|balanced",
  "b200|big|max-throughput",
  "b200|big|cp",
  "h200|small|low-latency",
  "h200|small|balanced",
  "h200|small|max-throughput",
  "h200|small|cp", // 新增:H200 small CP 已验证
  "h200|small|pd-disagg", // 新增:H200 small PD-Disagg 已验证
  // h200|big|pd-disagg: pending verification (needs 4-node H200 cluster with
  // shared IB fabric: 2-node prefill + 2-node decode).
]);// 配方命令暂未提供的集合(例如因上游限制),会显示友好占位符
const TBD_RECIPES = new Set([
  "h200|big|cp", // H200 big CP 暂时无法提供配方
]);
const TBD_PLACEHOLDER = "# to be provided";// 生成命令主函数(片段)
const generateCommand = () => {
  // ... 各种 flags 组装 ...
  const verifyKey = `${hardware}|${modelSize}|${recipe}`;
  // 先检查是否是 TBD 配方,如果是则直接返回占位符
  if (TBD_RECIPES.has(verifyKey)) return TBD_PLACEHOLDER;
  // 正常检查已验证集合
  return VERIFIED_RECIPES.has(verifyKey)
    ? withMultinode
    : `${BEING_VERIFIED_NOTE}\n${commentOutCommand(withMultinode)}`;
};

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。本次变更为纯文档更新,仅修改 .jsx 和 .mdx 文件中的配置数据和注释文本,不涉及任何运行时代码、测试或基础设施变更。主要风险在于:

  • 若验证结果有误或后续 checkpoint 变化,可能导致用户使用标记已验证的配方遇到问题;但文档本身有回退机制(未验证配方会被注释),且验证是在生产环境真实运行的,可靠性较高。
  • H200 镜像和检查点已公开可用,但实际使用中可能遇到路径或权限问题,文档已给出注意事项。
    未引入任何技术风险。

影响范围限于部署 DeepSeek-V4 的用户和团队:

  • 用户:B200 small PD-Disagg、H200 small CP/PD-Disagg 配方的部署命令从“被注释的待验证”变为“可直接运行”,减少用户手动验证成本。H200 big CP 配方从“被注释的无效命令”变为“# to be provided”占位符,避免用户困惑。
  • 内部团队:文档维护者通过 TBD_RECIPES 机制可以清晰标记哪些配方暂时无法提供,避免生成无效命令。
  • 影响程度:低。仅文档展示逻辑变化,不改变任何实际功能。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论