#26668 [Doc] Update benchmark instruction for dsv4

原始 PR 作者 Fridge003 合并时间 2026-05-29 14:37 文件变更 1 提交数 6 评论 6 代码增减 +28 / -36

执行摘要

更新 DeepSeek-V4 基准测试文档

更新 DeepSeek-V4 文档中的基准测试部分，以反映最新的评估标准和推荐工具（sgl-eval），确保用户能够正确运行准确率测试并理解预期结果。

该 PR 为纯粹的文档维护，无代码逻辑变更，对于关注 DeepSeek-V4 评估流程的读者有参考价值。开发团队可将其作为文档更新流程的示例，但无需深入 code review。

讨论亮点

主要的讨论发生在 PR 内部，作者（同时也是合并者）在 review 中自行提出了几处 suggestion 来调整参考准确率数值。例如，将 Flash 模型在 GPQA 上的参考准确率从 ~95% 改为 ~97.5%，随后又在另一个 suggestion 中改为 ~95%。最终提交的版本采纳了 ~95%（GPQA Flash）、~97.5%（GPQA Pro）等数值。整个过程体现了作者对基准测试结果的谨慎确认，但由于无其他 reviewer 参与，讨论较为简单。

实现拆解

添加前置条件：在 Accuracy Benchmark 章节开头增加一段说明，要求设置 SGLANG_DEFAULT_THINKING=1 和 SGLANG_REASONING_EFFORT=max 环境变量，并提示对于 GPQA 和 AIME25 基准运行至少 16 轮以减少随机性。
替换基准测试：将原有的 MMLU Benchmark 配置和结果表格整体移除，替换为 GPQA Diamond Benchmark 和 AIME25 Benchmark 两部分，每部分包含安装 sgl-eval 的命令以及运行测试的示例命令。
提供参考准确率：在命令后添加注释，给出 Flash 和 Pro 模型的参考准确率（如 GPQA: Flash ~95%，Pro ~97.5%；AIME25: Flash ~95%，Pro ~97.5%）。（注：具体数值在 review 中经过调整）
删除冗余内容：清理了旧的测试结果详细数据，使文档更简洁。
格式调整：修改了标题编号以匹配新内容。

文件	模块	状态	重要度
`docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx`	基准测试文档	modified	3.78

关键源码片段

docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx docs-update

本 PR 唯一修改的文件，更新了 DeepSeek-V4 模型的准确率基准测试指南。

# 启动模型前的环境变量
export SGLANG_DEFAULT_THINKING=1
export SGLANG_REASONING_EFFORT=max

# 安装 sgl-eval
pip install git+https://github.com/sgl-project/sgl-eval

# GPQA Diamond 基准（Flash 参考准确率 ~95%）
sgl-eval run gpqa --model deepseek-ai/DeepSeek-V4-Flash --api-key <api-key> --n-repeats 16 --max-tokens 200000 --temperature 1.0 --top-p 1.0 --thinking --out-dir /sgl-workspace/logs --base-url http://localhost:30000/v1

# AIME25 基准（Pro 参考准确率 ~97.5%）
sgl-eval run aime25 --model deepseek-ai/DeepSeek-V4-Pro --api-key <api-key> --n-repeats 16 --max-tokens 400000 --temperature 1.0 --top-p 1.0 --thinking --out-dir /sgl-workspace/logs --base-url http://localhost:30000/v1

评论区精华

GPQA 和 AIME25 参考准确率数值调整 documentation

作者在 PR review 中先后提出多个 suggestion 修改参考准确率数字，例如将 Flash GPQA 从 ~95% 改为 ~97.5%，而后又改为 ~95%；Pro GPQA 从 ~97.5% 改为 ~98.5% 等。最终提交的版本采纳了 Flash GPQA ~95%、Pro GPQA ~97.5%、Flash AIME25 ~95%、Pro AIME25 ~97.5%。

结论：作者通过多次 suggestion 和 commit 微调，最终确定了合理的参考准确率数值。 · 已解决

风险与影响

风险极低。由于仅包含文档更新，不会对系统稳定性和性能产生影响。潜在风险是如果基准测试命令或环境变量设置有误，可能导致用户运行测试失败；但这些命令已由作者验证过（从 commit 历史看，作者多次调整）。需要留意的是，文档中引用的 sgl-eval 工具需用户自行安装，如果该工具发生变化可能需要同步更新文档。

影响范围限定于阅读 DeepSeek-V4 基准测试文档的用户，主要为模型评估者。变更帮助他们使用更权威的基准测试和更便捷的工具，提升了文档的准确性和可用性。无其他系统影响。

低风险文档变更仅文档

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：更新 DeepSeek-V4 基准测试文档
推荐动作：该 PR 为纯粹的文档维护，无代码逻辑变更，对于关注 DeepSeek-V4 评估流程的读者有参考价值。开发团队可将其作为文档更新流程的示例，但无需深入 code review。

功能与动机

更新 DeepSeek-V4 文档中的基准测试部分，以反映最新的评估标准和推荐工具（sgl-eval），确保用户能够正确运行准确率测试并理解预期结果。

实现拆解

添加前置条件：在 Accuracy Benchmark 章节开头增加一段说明，要求设置 SGLANG_DEFAULT_THINKING=1 和 SGLANG_REASONING_EFFORT=max 环境变量，并提示对于 GPQA 和 AIME25 基准运行至少 16 轮以减少随机性。
替换基准测试：将原有的 MMLU Benchmark 配置和结果表格整体移除，替换为 GPQA Diamond Benchmark 和 AIME25 Benchmark 两部分，每部分包含安装 sgl-eval 的命令以及运行测试的示例命令。
提供参考准确率：在命令后添加注释，给出 Flash 和 Pro 模型的参考准确率（如 GPQA: Flash ~95%，Pro ~97.5%；AIME25: Flash ~95%，Pro ~97.5%）。（注：具体数值在 review 中经过调整）
删除冗余内容：清理了旧的测试结果详细数据，使文档更简洁。
格式调整：修改了标题编号以匹配新内容。

关键文件：

docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx（模块基准测试文档；类别 docs；类型 docs-update）: 本 PR 唯一修改的文件，更新了 DeepSeek-V4 模型的准确率基准测试指南。

关键符号：未识别

关键源码片段

`docs_new/cookbook/autoregressive/DeepSeek/DeepSeek-V4.mdx`

本 PR 唯一修改的文件，更新了 DeepSeek-V4 模型的准确率基准测试指南。

# 启动模型前的环境变量
export SGLANG_DEFAULT_THINKING=1
export SGLANG_REASONING_EFFORT=max

# 安装 sgl-eval
pip install git+https://github.com/sgl-project/sgl-eval

# GPQA Diamond 基准（Flash 参考准确率 ~95%）
sgl-eval run gpqa --model deepseek-ai/DeepSeek-V4-Flash --api-key <api-key> --n-repeats 16 --max-tokens 200000 --temperature 1.0 --top-p 1.0 --thinking --out-dir /sgl-workspace/logs --base-url http://localhost:30000/v1

# AIME25 基准（Pro 参考准确率 ~97.5%）
sgl-eval run aime25 --model deepseek-ai/DeepSeek-V4-Pro --api-key <api-key> --n-repeats 16 --max-tokens 400000 --temperature 1.0 --top-p 1.0 --thinking --out-dir /sgl-workspace/logs --base-url http://localhost:30000/v1

评论区精华

GPQA 和 AIME25 参考准确率数值调整 (documentation): 作者通过多次 suggestion 和 commit 微调，最终确定了合理的参考准确率数值。

风险与影响

风险：风险极低。由于仅包含文档更新，不会对系统稳定性和性能产生影响。潜在风险是如果基准测试命令或环境变量设置有误，可能导致用户运行测试失败；但这些命令已由作者验证过（从 commit 历史看，作者多次调整）。需要留意的是，文档中引用的 sgl-eval 工具需用户自行安装，如果该工具发生变化可能需要同步更新文档。
影响：影响范围限定于阅读 DeepSeek-V4 基准测试文档的用户，主要为模型评估者。变更帮助他们使用更权威的基准测试和更便捷的工具，提升了文档的准确性和可用性。无其他系统影响。
风险标记：低风险文档变更, 仅文档

关联脉络

PR #26662 [AMD][CI] Update v4 CI setting and move the task to main branch: 同样涉及 DeepSeek-V4 模型的测试配置更新，虽侧重 CI 而本文档侧重基准测试指南，但都服务于 V4 模型的评估流程。

#26668 [Doc] Update benchmark instruction for dsv4

执行摘要

更新 DeepSeek-V4 基准测试文档

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论