# PR #23394 完整报告

- 仓库：`sgl-project/sglang`
- 标题：[docs] sync kimi-k2.6 from sgl-cookbook
- 合并时间：2026-04-22 04:59
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/23394

---

# PR 分析报告：文档同步 Kimi-K2.6 评估细节

## 执行摘要
此 PR 为 Kimi-K2.6 模型文档同步了来自 sgl-cookbook 的 MMMU Pro 数据集评估内容，包括详细配置、评测命令和结果（pass@1 准确率 82.2%），替代了原有的占位文本，旨在提供更实用的基准测试参考，不影响代码功能，风险极低。

## 功能与动机
- **动机**：根据 PR 标题“sync kimi-k2.6 from sgl-cookbook”，主要目的是将外部食谱（cookbook）中的 Kimi-K2.6 模型评估信息同步到主仓库文档中，以完善文档内容。PR body 为模板，未提供具体描述，但从变更推断，是为了解决原有文档中“Pending update...”占位符问题，为用户提供可操作的评测指南和实际结果。
- **背景**：Kimi-K2.6 是 MoonshotAI 推出的推理模型，在 MMMU Pro 视觉基准测试中表现突出，此更新有助于用户准确评估模型性能。

## 实现拆解
变更仅涉及一个文件，具体拆解如下：

1. **文件定位**：修改 `docs_new/cookbook/autoregressive/Moonshotai/Kimi-K2.6.mdx`，这是 Kimi-K2.6 模型的文档入口。
2. **内容替换**：在“5.1.5 MMMU Pro Vision”章节中，将原有的占位文本替换为结构化内容。
3. **关键补充**：
 - **数据集与工具**：指定使用 MMMU Pro 标准 10 选项子集（1,730 个带图像问题）和 Kimi-Vendor-Verifier 评估工具。
 - **配置参数**：强调 `max_tokens=32,768` 的必要性，因为模型是推理型，设置过低会导致思考过程耗尽令牌，无法生成最终答案；同时提及 thinking mode 和 max_connections=256。
 - **评测命令**：提供完整的 shell 命令，包括环境变量和参数。
 - **结果展示**：以表格形式呈现评测结果，在完成 1,481/1,730 个样本的情况下，pass@1 准确率为 82.2%。

**核心代码片段（文档内容）**：
```markdown
> **Important**: Kimi-K2.6 is a reasoning model. Setting `max_tokens` too low (e.g., 4096) causes the thinking process to consume the entire token budget, leaving no tokens for the final answer. Use `max_tokens=32768` or higher.

**Evaluation Command:**

```shell
cd Kimi-Vendor-Verifier

OPENAI_BASE_URL=http://localhost:30000/v1 OPENAI_API_KEY=placeholder \
python3 eval.py mmmu \
 --model openai/moonshotai/Kimi-K2.6 \
 --max-tokens 32768 \
 --think-mode none \
 --max-connections 256
```

**Results (1,481/1,730 samples completed):**

<table>
 <thead>
 <tr>
 <th>Evaluation Mode</th>
 <th>Accuracy</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <td>pass@1</td>
 <td><strong>82.2%</strong></td>
 </tr>
 </tbody>
</table>
```

## 评论区精华
Review 过程非常简洁：
- **批准**：wisclmy0611 直接批准，无评论。
- **反馈**：Issue 评论中 Richardczl98 表示“LGTM!”，表明变更被认可。
- **结论**：无争议或深入讨论，变更被快速接受，侧面反映内容同步的常规性和低风险。

## 风险与影响
- **技术风险**：极低。仅文档更新，不涉及代码逻辑、配置或测试；主要风险在于文档内容的准确性（如评测结果、命令参数）是否与源一致，但鉴于无异议，风险可控。
- **影响分析**：
 - **用户影响**：正面，为用户提供了更详实的评测数据和配置指导，有助于正确使用 Kimi-K2.6 模型。
 - **系统影响**：无，不改变运行时行为、API 或性能。
 - **团队影响**：低，属于常规文档维护，无需额外测试或部署。

## 关联脉络
- **近期 PR**：与多个文档相关 PR（如 #23348、#23337）同属文档同步或更新范畴，反映团队在完善文档基础设施和内容。
- **模型生态**：Kimi-K2.6 作为 DeepSeek 相关模型，与 PR #23044（DeepSeek-OCR 测试修复）有间接关联，但本 PR 聚焦文档而非代码。
- **演进趋势**：此 PR 是文档食谱（cookbook）持续丰富的一部分，旨在提供更多模型的具体评估案例，支持用户实践和基准测试。