#23394 [docs] sync kimi-k2.6 from sgl-cookbook

原始 PR 作者 zijiexia 合并时间 2026-04-22 04:59 文件变更 1 提交数 1 评论 2 代码增减 +34 / -2

执行摘要

为 Kimi-K2.6 模型文档添加 MMMU Pro 数据集评估细节和结果。

PR 标题和提交信息表明，此变更是为了同步来自 sgl-cookbook 的 Kimi-K2.6 模型评估内容。PR body 为模板，未提供具体动机，但从变更内容推断，目的是完善 Kimi-K2.6 模型的文档，提供实际、可复现的基准测试数据和配置指导，以替代原有的“Pending update...”占位符。

此 PR 变更简单直接，主要为文档内容同步。对于一般开发者，无需精读；对于需要了解 Kimi-K2.6 模型具体评测结果或配置细节的用户，可快速浏览更新部分以获取参考信息。无复杂的设计决策需要关注。

讨论亮点

Review 过程非常简单，仅有一次批准（wisclmy0611）且无评论。Issue 评论中 Richardczl98 表示“LGTM!”，表明变更被快速接受。没有出现关于内容准确性、格式或技术细节的争议性讨论。

实现拆解

更新评估文档：修改 docs_new/cookbook/autoregressive/Moonshotai/Kimi-K2.6.mdx 文件中的“5.1.5 MMMU Pro Vision”章节。
替换占位内容：将原有的占位文本 ```text Output Pending update... 替换为详细的评估说明、命令和结果表格。
补充关键配置：新增了关于数据集（MMMU Pro 标准 10 选项子集）、评估工具（Kimi-Vendor-Verifier）、关键设置（max_tokens=32,768, thinking mode, max_connections=256）的说明，并特别强调了 max_tokens 设置过低会导致思考过程耗尽令牌预算的问题。
提供评测结果：添加了具体的评测命令和结果表格，显示在已完成 1,481/1,730 个样本的情况下，pass@1 准确率为 82.2%。

文件	模块	状态	重要度
`docs_new/cookbook/autoregressive/Moonshotai/Kimi-K2.6.mdx`	文档食谱	modified	3.58

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

技术风险极低。此变更仅涉及文档内容更新，不修改任何源代码、配置或测试逻辑。主要风险在于文档内容的准确性（如评测结果、命令参数）是否与外部来源（sgl-cookbook）一致，但鉴于变更被快速批准且无异议，风险可控。无回归、性能、安全或兼容性风险。

影响范围：仅影响文档使用者，特别是关注 Kimi-K2.6 模型性能评估的用户。
影响程度：低。它提供了更详实的基准测试信息，有助于用户理解模型在 MMMU Pro 数据集上的表现并正确配置评估参数，但不会改变系统功能、API 或运行时行为。

文档内容准确性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR 分析报告：文档同步 Kimi-K2.6 评估细节

执行摘要

此 PR 为 Kimi-K2.6 模型文档同步了来自 sgl-cookbook 的 MMMU Pro 数据集评估内容，包括详细配置、评测命令和结果（pass@1 准确率 82.2%），替代了原有的占位文本，旨在提供更实用的基准测试参考，不影响代码功能，风险极低。

功能与动机

动机：根据 PR 标题“sync kimi-k2.6 from sgl-cookbook”，主要目的是将外部食谱（cookbook）中的 Kimi-K2.6 模型评估信息同步到主仓库文档中，以完善文档内容。PR body 为模板，未提供具体描述，但从变更推断，是为了解决原有文档中“Pending update...”占位符问题，为用户提供可操作的评测指南和实际结果。
背景：Kimi-K2.6 是 MoonshotAI 推出的推理模型，在 MMMU Pro 视觉基准测试中表现突出，此更新有助于用户准确评估模型性能。

实现拆解

变更仅涉及一个文件，具体拆解如下：

文件定位：修改 docs_new/cookbook/autoregressive/Moonshotai/Kimi-K2.6.mdx，这是 Kimi-K2.6 模型的文档入口。
内容替换：在“5.1.5 MMMU Pro Vision”章节中，将原有的占位文本替换为结构化内容。
关键补充：
- 数据集与工具：指定使用 MMMU Pro 标准 10 选项子集（1,730 个带图像问题）和 Kimi-Vendor-Verifier 评估工具。
- 配置参数：强调 max_tokens=32,768 的必要性，因为模型是推理型，设置过低会导致思考过程耗尽令牌，无法生成最终答案；同时提及 thinking mode 和 max_connections=256。
- 评测命令：提供完整的 shell 命令，包括环境变量和参数。
- 结果展示：以表格形式呈现评测结果，在完成 1,481/1,730 个样本的情况下，pass@1 准确率为 82.2%。

核心代码片段（文档内容）：

> **Important**: Kimi-K2.6 is a reasoning model. Setting `max_tokens` too low (e.g., 4096) causes the thinking process to consume the entire token budget, leaving no tokens for the final answer. Use `max_tokens=32768` or higher.

**Evaluation Command:**

```shell
cd Kimi-Vendor-Verifier

OPENAI_BASE_URL=http://localhost:30000/v1 OPENAI_API_KEY=placeholder \
python3 eval.py mmmu \
 --model openai/moonshotai/Kimi-K2.6 \
 --max-tokens 32768 \
 --think-mode none \
 --max-connections 256

Results (1,481/1,730 samples completed):

Evaluation Mode	Accuracy
pass@1	82.2%

```

评论区精华

Review 过程非常简洁：

批准：wisclmy0611 直接批准，无评论。
反馈：Issue 评论中 Richardczl98 表示“LGTM!”，表明变更被认可。
结论：无争议或深入讨论，变更被快速接受，侧面反映内容同步的常规性和低风险。

风险与影响

技术风险：极低。仅文档更新，不涉及代码逻辑、配置或测试；主要风险在于文档内容的准确性（如评测结果、命令参数）是否与源一致，但鉴于无异议，风险可控。
影响分析：
- 用户影响：正面，为用户提供了更详实的评测数据和配置指导，有助于正确使用 Kimi-K2.6 模型。
- 系统影响：无，不改变运行时行为、API 或性能。
- 团队影响：低，属于常规文档维护，无需额外测试或部署。

关联脉络

近期 PR：与多个文档相关 PR（如 #23348、#23337）同属文档同步或更新范畴，反映团队在完善文档基础设施和内容。
模型生态：Kimi-K2.6 作为 DeepSeek 相关模型，与 PR #23044（DeepSeek-OCR 测试修复）有间接关联，但本 PR 聚焦文档而非代码。
演进趋势：此 PR 是文档食谱（cookbook）持续丰富的一部分，旨在提供更多模型的具体评估案例，支持用户实践和基准测试。

#23394 [docs] sync kimi-k2.6 from sgl-cookbook

执行摘要

为 Kimi-K2.6 模型文档添加 MMMU Pro 数据集评估细节和结果。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论