#38576 vLLM Benchmark Suite perf regression after PR#32723

原始 PR 作者 louie-tsai 合并时间 2026-03-31 13:23 文件变更 6 提交数 2 评论 0 代码增减 +15 / -1

执行摘要

修复性能基准测试回归，通过添加 temperature=0 确保输出确定性。

PR body指出：'The PR unset default temperature from 0, so the temperature changes can alter output path variance. Since we need to identify perf regression issue so we need deterministic results.' 即PR#32723移除了默认temperature设置，导致输出不确定性，需要固定temperature为0以确保基准测试结果可复现。

该PR变更简单，不值得深入精读。但可关注基准测试配置对性能评估的重要性，以及如何在CI中保持测试确定性。

讨论亮点

Review中无实质性讨论。只有自动化bot评论（如claude[bot]和gemini-code-assist[bot]指出无反馈）和合并者njhill的approve（'Thanks @louie-tsai!'），表明变更被直接接受，无争议。

实现拆解

所有改动集中在.buildkite/performance-benchmarks/tests/目录下的6个JSON配置文件。每个文件在相关测试配置中添加了"temperature": 0键值对，覆盖了ARM64、CPU、HPU等后端。没有代码逻辑变更，仅配置调整。

文件	模块	状态	重要度
`.buildkite/performance-benchmarks/tests/serving-tests.json`	CI/benchmarking	modified	5.0
`.buildkite/performance-benchmarks/tests/serving-tests-arm64-cpu.json`	CI/benchmarking	modified	4.0
`.buildkite/performance-benchmarks/tests/serving-tests-hpu.json`	CI/benchmarking	modified	4.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低。更改仅影响基准测试配置，不涉及核心代码路径，无回归、性能、安全或兼容性风险。但需确保所有相关测试文件都被覆盖，以避免遗漏导致性能回归检测不准确；提交历史显示第二个提交补丁了ARM CPU、NV GPU和Gaudi，但文件列表未显示具体文件，可能存在配置不完整风险。

影响范围限于性能基准测试套件，对用户和系统无直接影响。通过确保输出确定性，提高了性能回归检测的准确性，对开发流程和CI稳定性有正面影响。

基准测试配置不完整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR修复了由于PR#32723取消默认temperature设置导致的性能基准测试回归，通过在多个基准测试配置文件中添加temperature: 0参数，确保输出确定性以准确检测性能问题。变更仅影响CI测试套件，风险低，已直接合并。

功能与动机

PR#32723移除了temperature的默认值0，导致基准测试输出路径方差增加，影响性能回归的识别。PR body明确表述："Since we need to identify perf regression issue so we need deterministic results." 因此，本PR旨在恢复确定性输出，通过固定temperature为0来消除方差干扰。

实现拆解

所有改动均位于.buildkite/performance-benchmarks/tests/目录下的JSON配置文件，包括：

serving-tests.json：通用基准测试配置，添加"temperature": 0。
serving-tests-arm64-cpu.json：针对ARM64 CPU后端。
serving-tests-cpu.json、serving-tests-cpu-asr.json、serving-tests-cpu-text.json：针对不同CPU测试场景。
serving-tests-hpu.json：针对HPU后端。

每个文件的变更类似，仅在相关配置对象中添加键值对，无代码逻辑调整。示例代码片段：

{
  "temperature": 0,
  "num_prompts": 200
}

评论区精华

Review中无技术讨论。仅有自动化bot评论指出无反馈，以及合并者njhill的简短批准（"Thanks @louie-tsai!"），表明变更被认可且无争议。

风险与影响

风险较低：

仅配置变更，不触及核心代码，无回归或安全风险。
但提交历史显示第二个提交补丁了ARM CPU、NV GPU和Gaudi，文件列表未完全覆盖，可能遗漏部分测试文件，导致性能检测不准确。

影响有限：

直接作用于CI性能基准测试，提升回归检测可靠性。
对最终用户和系统运行时无影响。

关联脉络

本PR直接关联PR#32723（未在提供历史列表中），修复其引起的基准测试不确定性。同仓库近期历史PR多涉及bugfix、性能优化和重构（如#38546清理KVConnector、#36847新增推测解码），但本PR更侧重于CI基础设施维护，反映团队对测试稳定性的重视。

#38576 vLLM Benchmark Suite perf regression after PR#32723

执行摘要

修复性能基准测试回归，通过添加 temperature=0 确保输出确定性。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论