Prhub

#27184 docs: fix Nemotron Super MTP deployment command (spec-v2 + B200)

原始 PR 作者 guapisolo 合并时间 2026-06-04 05:52 文件变更 1 提交数 2 评论 1 代码增减 +7 / -3

执行摘要

修复 Nemotron3 Super MTP 部署命令生成逻辑

PR Body 明确指出:启用 MTP 后生成的命令会丢弃 radix cache,且在 B200 上默认的 attention backend(flashinfer)会因 per-step plan() 的 host-sync 导致 spec-v2 重叠调度器停滞。需要修复以生成正确的部署命令。

建议阅读以了解 spec-v2 与 radix cache、attention backend 的兼容性约束,以及如何在文档代码片段中通过 commandRule 函数的 state 参数实现硬件感知的命令生成。

讨论亮点

无 review 讨论。

实现拆解

  1. 修改 mtp 选项的 commandRule 函数签名:将参数由 (value) 修改为 (value, state),使得函数可以访问所有表单状态,包括 hardware 选择。
  2. 替换 MTP 命令片段:将 --disable-radix-cache 替换为 --mamba-scheduler-strategy extra_buffer,并去掉该参数,从而保持 radix cache 开启;基于 state.hardware === 'b200' 条件追加 --attention-backend trtllm_mha
  3. 修改 generateCommand 函数:在命令开头添加 SGLANG_ENABLE_SPEC_V2=1 环境变量前缀(当 MTP 启用时),并将启动命令由 python3 -m sglang.launch_server 改为 sglang serve(由 second commit 补充)。
  4. 更新 commandRule 调用处:传入完整的 values 对象作为第二个参数。
文件 模块 状态 重要度
docs_new/src/snippets/autoregressive/nemotron3-super-deployment.jsx 文档片段 modified 5.74

关键源码片段

docs_new/src/snippets/autoregressive/nemotron3-super-deployment.jsx core-logic

主变更文件,修复了 MTP 命令生成的核心逻辑,涉及 `commandRule` 签名与实现、`generateCommand` 函数及环境变量设置。

// 以下代码片段展示了关键变更:
// - commandRule 现在接收 (value, state) 以访问硬件选项
// - 返回值不再包含 --disable-radix-cache,而是使用 --mamba-scheduler-strategy extra_buffer
// - 只在 B200 上追加 --attention-backend trtllm_mha
commandRule: (value, state) => value === 'enabled'
  ? '--speculative-algorithm EAGLE \\
  --speculative-num-steps 3 \\
  --speculative-eagle-topk 1 \\
  --speculative-num-draft-tokens 4 \\
  --mamba-scheduler-strategy extra_buffer'
    + (state.hardware === 'b200'
      ? ' \\
  --attention-backend trtllm_mha'
      : '')
  : null

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。变更仅影响文档中的代码片段生成逻辑,不涉及运行时后端代码。但若未来硬件或最佳实践变化,此处的硬编码 'b200' 字符串可能需同步更新。

仅影响 Nemotron3 Super 文档页面中 MTP 启用时生成的部署命令。用户复制使用后将得到正确的命令,不再丢失 radix cache 或遭遇 B200 上 spec-v2 调度器阻塞问题。

文档变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论