执行摘要
新增 Intern-S2-Preview 部署文档
提供 Intern-S2-Preview 模型在 SGLang 上的部署指南,包括标准模式和 MTP 模式,以及视觉输入调用示例,帮助用户快速上手。
对于需要部署 Intern-S2-Preview 模型的用户,建议精读此文档。文档中提供的 MTP 多 token 预测配置值得关注,展示了 SGLang 对新模型的高级特性支持。
无 review 讨论,由维护者直接批准。
提供 Intern-S2-Preview 模型在 SGLang 上的部署指南,包括标准模式和 MTP 模式,以及视觉输入调用示例,帮助用户快速上手。
对于需要部署 Intern-S2-Preview 模型的用户,建议精读此文档。文档中提供的 MTP 多 token 预测配置值得关注,展示了 SGLang 对新模型的高级特性支持。
无 review 讨论,由维护者直接批准。
实现步骤如下:
docs_new/cookbook/autoregressive/InternLM/ 下新增 Intern-S2-Preview.mdx,内容包括模型介绍、SGLang 安装、标准部署命令(tp=8)、MTP 多 token 预测配置(NEXTN 算法)、以及基于 OpenAI 客户端的视觉输入调用示例。docs_new/docs.json,在 InternLM 分组下的 pages 数组中增加 cookbook/autoregressive/InternLM/Intern-S2-Preview 路径,使文档导航侧边栏能正确索引该页面。docs_new/cookbook/autoregressive/intro.mdx,在 InternLM 卡片列表中添加一个指向 Intern-S2-Preview 的新卡片链接,方便用户从介绍页直接访问。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
docs_new/cookbook/autoregressive/InternLM/Intern-S2-Preview.mdx |
部署文档 | added | 5.98 |
docs_new/docs.json |
导航配置 | modified | 3.0 |
docs_new/cookbook/autoregressive/intro.mdx |
文档目录 | modified | 2.28 |
docs_new/cookbook/autoregressive/InternLM/Intern-S2-Preview.mdx
documentation
新增的模型部署文档主体,包含部署命令和调用示例。
# 标准部署方案:使用 8 张 GPU 张量并行,加载 Intern-S2-Preview
sglang serve \
--model-path internLM/Intern-S2-Preview \
--tp 8 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mem-fraction-static 0.8 \
--host 0.0.0.0 \
--port 30000
# MTP 多 token 预测方案:启用 NEXTN 投机解码以加速推理
SGLANG_ENABLE_SPEC_V2=1 \
sglang serve \
--model-path internLM/Intern-S2-Preview \
--tp 8 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer \
--speculative-algo 'NEXTN' \
--speculative-eagle-topk 1 \
--speculative-num-steps 3 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.8 \
--host 0.0.0.0 \
--port 30000
# 配置建议:
# - 使用 --reasoning-parser qwen3 来分离推理流与最终输出
# - 使用 --tool-call-parser qwen3_coder 以支持工具调用
# - MTP 模式需要同时设置 --mamba-scheduler-strategy 和 --speculative-algo 'NEXTN'
# - 若权重加载缓慢,可添加 --model-loader-extra-config='{"enable_multithread_load": "true","num_threads": 64}'
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
纯文档变更,风险极低。唯一风险是部署命令或配置建议可能存在错误,但经过维护者审查批准,且模型官方配置稳定,风险可控。
对用户:提供了清晰的 Intern-S2-Preview 部署指南,降低上手成本。对系统:无运行时影响。对团队:增加了文档维护内容,但属于常规文档补充。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论