#26969 docs: add Nemotron 3 Ultra cookbook entry

原始 PR 作者 zhenghax 合并时间 2026-06-04 15:14 文件变更 4 提交数 27 评论 11 代码增减 +1045 / -1

执行摘要

新增 Nemotron 3 Ultra cookbook 文档和交互式部署生成器

如 PR 描述：添加 SGLang Day-0 cookbook for NVIDIA Nemotron 3 Ultra，跟随已有 Nemotron3-Super 页面布局，为新模型提供即开即用的部署指南。

值得精读的文档 PR，特别是交互式生成器的验证矩阵设计模式，可用于其他模型的 cookbook 开发。关注其验证逻辑与文档同步机制，对后续文档自动化有参考价值。

讨论亮点

Review 中主要讨论了以下问题：

阻止未验证命令：Fridge003 要求生成器不能输出任何未经验证的部署命令，作者通过引入 VERIFIED_CONFIGS 表并在 UI 中动态禁用选项来解决。
添加 DP 注意力：Fridge003 建议添加 DP attention 配置，后续由 @guapisolo 实现。
Docker 镜像：作者询问镜像标签，Fridge003 指定使用 lmsysorg/sglang:dev-nemotron3-ultra。
NEW 标签：Fridge003 要求添加 tag: NEW 到 frontmatter。

实现拆解

创建主文档页面：在 docs_new/cookbook/autoregressive/NVIDIA/Nemotron3-Ultra.mdx 中撰写模型介绍、架构特点、支持硬件 (H100/H200/B200/GB200/B300)、量化变体 (BF16/NVFP4)、安装命令、部署步骤和推理示例。
开发交互式部署生成器：新增 docs_new/src/snippets/autoregressive/nemotron3-ultra-deployment.jsx React 组件，定义 VERIFIED_CONFIGS 作为验证矩阵，通过辅助函数动态过滤选项，仅允许经过测试的组合。
注册导航：在 docs_new/docs.json 的 NVIDIA 分组添加页面条目，在 docs_new/cookbook/intro copy.mdx 首页索引添加 NEW 标签入口。
添加高级选项：在生成器中加入 DP 注意力和 EP 开关，DP 选项根据模型类型和 TP 大小自动过滤。
验证矩阵修正：根据 review 反馈多次调整 VERIFIED_CONFIGS，移除未验证组合并更新默认配置。

文件	模块	状态	重要度
`docs_new/cookbook/autoregressive/NVIDIA/Nemotron3-Ultra.mdx`	用户指南	added	6.71
`docs_new/src/snippets/autoregressive/nemotron3-ultra-deployment.jsx`	部署生成器	added	8.89
`docs_new/docs.json`	导航配置	modified	3.0
`docs_new/cookbook/intro copy.mdx`	首页索引	modified	2.0

关键符号

Nemotron3UltraDeployment findVerified verifiedHardwareForModel verifiedTpForModelHardware dpCandidatesForModel maxVerifiedTpForModelHardware verifiedDpForModelHardwareTp renderVerifiedMatrix ThinkingBudgetClient chat_completion

关键源码片段

docs_new/src/snippets/autoregressive/nemotron3-ultra-deployment.jsx core-logic

交互式部署生成器的核心实现，包含 VERIFIED_CONFIGS 验证矩阵、动态选项过滤和命令生成逻辑。

export const Nemotron3UltraDeployment = () => {
  // 模型路径映射，BF16 和 NVFP4 两个量化变体
  const MODEL_PATHS = {
    bf16: 'nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16',
    nvfp4: 'nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4',
  };

  // 已验证的 {model, hardware, tp} 组合，未在列表中的组合会被 generateCommand 阻止
  // 必须与 MDX 文档中的“支持的 GPU”表格保持同步
  const VERIFIED_CONFIGS = [
    { model: 'bf16', hardware: 'h100', tp: '16', multinode: true },
    { model: 'bf16', hardware: 'h200', tp: '16', multinode: true },
    { model: 'bf16', hardware: 'b200', tp: '8' },
    { model: 'bf16', hardware: 'b300', tp: '8' },
    { model: 'nvfp4', hardware: 'b200', tp: '4' },
    { model: 'nvfp4', hardware: 'b200', tp: '8' },
    { model: 'nvfp4', hardware: 'b300', tp: '4' },
    { model: 'nvfp4', hardware: 'b300', tp: '8' },
    { model: 'nvfp4', hardware: 'gb200', tp: '4' },
    { model: 'nvfp4', hardware: 'gb300', tp: '4' },
  ];

  const findVerified = (model, hardware, tp) =>
    VERIFIED_CONFIGS.find((c) => c.model === model && c.hardware === hardware && c.tp === tp);

  const verifiedHardwareForModel = (model) =>
    [...new Set(VERIFIED_CONFIGS.filter((c) => c.model === model).map((c) => c.hardware))];

  const verifiedTpForModelHardware = (model, hardware) =>
    [...new Set(VERIFIED_CONFIGS.filter((c) => c.model === model && c.hardware === hardware).map((c) => c.tp))];

  const dpCandidatesForModel = (model) => (model === 'bf16' ? ['2'] : ['2', '4', '8']);

  const maxVerifiedTpForModelHardware = (model, hardware) => {
    const tps = verifiedTpForModelHardware(model, hardware).map(Number);
    return tps.length ? Math.max(...tps) : 0;
  };

  const verifiedDpForModelHardwareTp = (model, hardware, tp) => {
    const cap = Math.min(Number(tp) || 0, maxVerifiedTpForModelHardware(model, hardware));
    return dpCandidatesForModel(model).filter((d) => Number(d) <= cap);
  };
  // 后续 options 定义和 generateCommand 逻辑基于这些验证函数保证生成命令的有效性
};

评论区精华

添加 NEW 标签到 MDX 元数据 documentation

Fridge003 要求在 frontmatter 中添加 `tag: NEW` 以在侧边栏显示 NEW 徽章。

结论：作者在 MDX 元数据中添加了 `tag: NEW`。 · 已解决

阻止未经验证的部署命令 正确性

Fridge003 指出交互式生成器必须不能生成未经验证的命令，特别指出 H200 不应与 NVFP4 配对。

结论：作者引入 VERIFIED_CONFIGS 表和 findVerified 函数，硬件选项根据验证列表动态禁用，确保只生成已验证命令。 · 已解决

添加 DP 注意力配置选项 feature

Fridge003 建议在生成器中添加 dp attention 配置，并指出 @guapisolo 正在处理。

结论：后续提交新增了 dpattention 选项，根据模型类型 (BF16 仅 DP=2，NVFP4 DP=2/4/8) 和 TP 大小自动过滤可用值。 · 已解决

使用专用 Docker 镜像 other

作者询问安装节点应使用哪个 Docker 镜像，Fridge003 建议使用 `lmsysorg/sglang:dev-nemotron3-ultra`。

结论：安装章节更新为使用专用开发镜像。 · 已解决

风险与影响

主要风险来自文档与验证矩阵的同步：VERIFIED_CONFIGS 与 MDX 文档必须保持一致，否则用户可能参考文档手动构造未验证命令。安装章节的 Docker 镜像目前为开发版占位符，正式版发布后需更新。基准数据标记为 TBD 可能降低文档可信度。作为纯文档变更，无运行时风险。

用户侧：获得全新的 Nemotron 3 Ultra 部署指南，交互式生成器降低配置错误率。系统侧：无运行时代码变更。团队侧：新增的文档需要维护，验证矩阵需要与模型支持同步更新。影响范围限于文档系统，无功能影响。

配置同步风险 Docker 占位符基准数据 TBD

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 为 NVIDIA Nemotron 3 Ultra 550B 模型添加了完整的 Day-0 cookbook 文档，包括模型介绍、安装指引、交互式部署生成器和推理示例。核心改动是新增一个 500+ 行的 Markdown 页面和一个 400+ 行的 JSX 交互组件，后者通过验证矩阵确保仅输出经过测试的部署命令，有效降低用户配置错误风险。这是一次纯文档变更，不涉及运行时代码。

功能与动机

如 PR 描述所述："Adds SGLang Day-0 cookbook for NVIDIA Nemotron 3 Ultra (550B hybrid Transformer-Mamba MoE, 55B active, 1M context, text-only) following the existing Nemotron3-Super page layout." 随着 NVIDIA 发布新的混合 MoE 模型，需要在 SGLang 文档中提供即开即用的部署指南，帮助用户在多种 GPU 配置下快速启动推理服务。

实现拆解

创建主文档页面：在 docs_new/cookbook/autoregressive/NVIDIA/Nemotron3-Ultra.mdx 中撰写完整的模型说明、架构特点、支持硬件 (H100/H200/B200/GB200/B300)、量化变体 (BF16/NVFP4)、安装命令、部署步骤、推理示例 (包含 reasoning/tool-calling 输出) 以及基准测试表格（数据暂标记为 TBD）。
开发交互式部署生成器：新增 docs_new/src/snippets/autoregressive/nemotron3-ultra-deployment.jsx 文件，导出一个 React 组件。组件内部定义 VERIFIED_CONFIGS 数组作为单一事实来源，列出所有经验证的 {模型, 硬件, TP} 组合。利用 findVerified、verifiedHardwareForModel、verifiedTpForModelHardware 等辅助函数动态过滤选项，确保用户选择仅限已验证组合。后续通过 generateCommand 函数拼装 sglang.launch_server 命令。
注册页面导航：在 docs_new/docs.json 的 NVIDIA 分组下追加 "cookbook/autoregressive/NVIDIA/Nemotron3-Ultra" 条目，使页面出现在文档侧边栏。同时在 docs_new/cookbook/intro copy.mdx 的 NVIDIA 段落末尾添加条目并附带 NEW 标签徽章。
添加 DP 注意力和 EP 开关：在生成器中加入 dpattention 和 expertparallel 选项，分别绑定 --dp --enable-dp-attention 和 --enable-ep 参数。DP 验证逻辑进一步根据模型类型 (BF16 仅 DP=2，NVFP4 DP=2/4/8) 和 TP 大小自动过滤可用选项。
持续修正验证矩阵：在 review 过程中根据反馈多次调整 VERIFIED_CONFIGS，例如移除 BF16+GB200/GB300 TP=8（未验证），扩展 NVFP4 到 B300 TP=4/8，并更改默认值为 NVFP4+B200+TP=4+MTP。

`docs_new/src/snippets/autoregressive/nemotron3-ultra-deployment.jsx`

交互式部署生成器的核心实现，包含 VERIFIED_CONFIGS 验证矩阵、动态选项过滤和命令生成逻辑。

export const Nemotron3UltraDeployment = () => {
  // 模型路径映射，BF16 和 NVFP4 两个量化变体
  const MODEL_PATHS = {
    bf16: 'nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16',
    nvfp4: 'nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4',
  };

  // 已验证的 {model, hardware, tp} 组合，未在列表中的组合会被 generateCommand 阻止
  // 必须与 MDX 文档中的“支持的 GPU”表格保持同步
  const VERIFIED_CONFIGS = [
    { model: 'bf16', hardware: 'h100', tp: '16', multinode: true },
    { model: 'bf16', hardware: 'h200', tp: '16', multinode: true },
    { model: 'bf16', hardware: 'b200', tp: '8' },
    { model: 'bf16', hardware: 'b300', tp: '8' },
    { model: 'nvfp4', hardware: 'b200', tp: '4' },
    { model: 'nvfp4', hardware: 'b200', tp: '8' },
    { model: 'nvfp4', hardware: 'b300', tp: '4' },
    { model: 'nvfp4', hardware: 'b300', tp: '8' },
    { model: 'nvfp4', hardware: 'gb200', tp: '4' },
    { model: 'nvfp4', hardware: 'gb300', tp: '4' },
  ];

  const findVerified = (model, hardware, tp) =>
    VERIFIED_CONFIGS.find((c) => c.model === model && c.hardware === hardware && c.tp === tp);

  const verifiedHardwareForModel = (model) =>
    [...new Set(VERIFIED_CONFIGS.filter((c) => c.model === model).map((c) => c.hardware))];

  const verifiedTpForModelHardware = (model, hardware) =>
    [...new Set(VERIFIED_CONFIGS.filter((c) => c.model === model && c.hardware === hardware).map((c) => c.tp))];

  const dpCandidatesForModel = (model) => (model === 'bf16' ? ['2'] : ['2', '4', '8']);

  const maxVerifiedTpForModelHardware = (model, hardware) => {
    const tps = verifiedTpForModelHardware(model, hardware).map(Number);
    return tps.length ? Math.max(...tps) : 0;
  };

  const verifiedDpForModelHardwareTp = (model, hardware, tp) => {
    const cap = Math.min(Number(tp) || 0, maxVerifiedTpForModelHardware(model, hardware));
    return dpCandidatesForModel(model).filter((d) => Number(d) <= cap);
  };
  // 后续 options 定义和 generateCommand 逻辑基于这些验证函数保证生成命令的有效性
};

评论区精华

阻止未验证命令：Fridge003 强调“需要阻止任何未验证的命令，例如所有 H200 命令对 NVFP4 检查点都应被阻止”。作者通过引入 VERIFIED_CONFIGS 表并动态禁用选项来解决。
添加 DP 注意力：Fridge003 建议增加 dp attention 配置，并指出 @guapisolo 正在处理。后续提交新增了 dpattention 选项，并根据模型类型和 TP 大小过滤。
专用 Docker 镜像：针对安装章节的 Docker 标签，Fridge003 建议使用 lmsysorg/sglang:dev-nemotron3-ultra 替代占位符。
NEW 标签：Fridge003 要求在 frontmatter 添加 tag: NEW 以便侧边栏显示 NEW 徽章，已修复。

风险与影响

验证矩阵同步风险：VERIFIED_CONFIGS 与 MDX 文档中的“支持的 GPU”表格必须保持同步，否则用户可能参考文档手动构造未验证命令。建议后续增加自动化测试或单数据源。
Docker 镜像占位符：安装章节当前使用开发镜像 dev-nemotron3-ultra，待正式版发布后需替换为稳定标签。
基准数据 TBD：速度与精度基准数据标记为 TBD，如果长时间未填充可能降低文档可信度。
无运行时代码影响：纯文档变更，不会引入运行时缺陷。

关联脉络

该 PR 是 SGLang 文档系列中针对 NVIDIA Nemotron 系列的新增入口，延续了 Nemotron3-Super 的页面结构。相关的底层支持 PR 包括：#26861（NVFP4 MoE 加载优化），为该模型的 NVFP4 部署提供性能基础。未来需要跟进基准测试数据填充和稳定 Docker 镜像发布。

#26969 docs: add Nemotron 3 Ultra cookbook entry

执行摘要

新增 Nemotron 3 Ultra cookbook 文档和交互式部署生成器

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论