#42607 Update Intel Xeon model list and vLLM Benchmark Suite BKMs

原始 PR 作者 louie-tsai 合并时间 2026-05-15 13:14 文件变更 2 提交数 3 评论 1 代码增减 +118 / -159

执行摘要

更新 Intel Xeon 模型列表和 CPU 基准测试配置

PR body 指出 'Purpose update Intel Xeon model list and vLLM Benchmark Suite BKMs for 0.20.2 release'，目的是为 vLLM 0.20.2 版本发布更新 Intel Xeon 支持的模型列表和基准测试最佳实践。确保文档和性能测试与实际支持能力同步。

这是一个常规的维护性 PR，如果关心 CPU 后端支持进展和性能基准测试配置，值得阅读以了解新增的模型和测试策略变化。设计上无显著亮点，但配置更新体现了对覆盖率和简化性的权衡。

讨论亮点

无实质讨论。该 PR 在单次 review 回合即获得批准（approval），仅有的机器人评论未产生有效技术讨论。

实现拆解

更新 CPU 基准测试 JSON 配置 (.buildkite/performance-benchmarks/tests/serving-tests-cpu-text.json)：将原有的多个基于 ShareGPT 数据集和不同 tensor_parallel 规模的测试用例替换为固定 TP=1 的随机输入测试用例，并新增多达十几个新模型变体，包括 INT4 量化（AWQ）、INT8 量化（w8a8）、Llama 3.2 1B/3B、Llama 3.3 70B、Granite 2B、Qwen3 系列（1.7B/4B/8B/14B）等。删除了原来的 TP=2/TP=4 和长输出（2048）测试用例，大幅简化了配置，同时扩大了模型覆盖范围。
更新 CPU 支持模型文档 (docs/models/hardware_supported_models/cpu.md)：在文本模型表格中新增了约 20 个新模型条目，包括 GPT-Oss、多个量化版本（RedHatAI w8a8、hugging-quants AWQ INT4、TheBloke AWQ/GPTQ）、Qwen3 系列全尺寸、Phi-4、Mistral AWQ 等；在多模态表格中添加了 Llama-4、Gemma-3 等模型。并调整了表格格式，移除了图例说明中的部分表情符号。
配置同步与验证：作者在 Intel 硬件（AWS m8i.24xlarge）上运行了 vLLM Benchmark Suite 并通过，确保新配置可用。Mergify 也自动生成了文档预览。

文件	模块	状态	重要度
`.buildkite/performance-benchmarks/tests/serving-tests-cpu-text.json`	CPU 基准测试	modified	5.31
`docs/models/hardware_supported_models/cpu.md`	模型文档	modified	3.37

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低。仅涉及测试配置文件（JSON）和文档（Markdown）的更改，不涉及任何核心代码。潜在的次要风险包括如果模型名错误或实际不可用可能导致基准测试失败，但作者已通过测试验证。文档列表与实际支持功能的同步需要确保一致性。

对用户：文档更新使 CPU 用户能够准确了解支持的模型列表和量化选项。对系统：基准测试配置更新将影响后续 vLLM 版本发布前的性能回归测试任务，新的测试用例更聚焦于典型配置。对团队：简化了基准测试配置，减少了维护负担（删除了多 TP 和 ShareGPT 测试）。影响范围限 CPU 后端。

低风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 更新了 Intel Xeon CPU 的模型支持列表和性能基准测试配置，为 vLLM 0.20.2 版本发布做准备。主要变更包括：将 CPU 基准测试配置中的测试用例从多 TP 和 ShareGPT 组合切换为以 TP=1 为主的随机输入测试，并新增大量量化模型和多尺寸模型；同步更新 CPU 模型文档，记录新支持模型和量化变体的状态。

功能与动机

根据 PR body 描述，目的是 "update Intel Xeon model list and vLLM Benchmark Suite BKMs for 0.20.2 release"。随着 CPU 后端支持越来越多的模型和量化格式，需要及时更新文档和基准测试配置，以便用户了解支持情况，并确保在发布前进行覆盖这些新增模型的性能验证。

实现拆解

更新 CPU 基准测试 JSON 配置（.buildkite/performance-benchmarks/tests/serving-tests-cpu-text.json）：删除了原来的 12 个基于 ShareGPT 和不同输入输出长度的测试用例（包括 TP=2 和 TP=4 的配置），替换为 10 个新的测试用例，全部采用随机数据集、输入长度 128、输出长度 128，且 tensor_parallel 固定为 1（70B 模型也使用 TP=1 单机测试）。新增模型包括：Llama-3.2-1B/3B、Llama-3.3-70B、Granite-3.2-2B、Qwen3 系列（1.7B/4B/8B/14B），以及这些模型的 INT4 AWQ 和 INT8 w8a8 量化变体。通过使用固定参数模板和环境变量，大幅简化了配置，同时显著扩大了模型覆盖范围。
更新文档（docs/models/hardware_supported_models/cpu.md）：在文本模型表格中新增约 20 个模型条目，包括 unsloth/gpt-oss-20b、meta-llama/Llama-3.2-1B、meta-llama/Llama-3.3-70B-Instruct、多个 RedHatAI w8a8 量化模型、hugging-quants AWQ INT4 模型、TheBloke AWQ/GPTQ 模型、Qwen3 全系列（包括 MoE 版本）、Phi-4、Mistral AWQ 等。在多模态表格中新增了 Llama-4、Gemma-3、Whisper 等模型。
测试验证：作者在 AWS m8i.24xlarge Intel 实例上运行所有测试并通过，保证了配置的正确性。

以下展示基准测试配置中新增的代表性测试用例（部分）：

// 基准测试配置头部保持不变
"server_parameters": {
  "model": "meta-llama/Llama-3.1-8B-Instruct",
  "tensor_parallel_size": 1,
  "dtype": "bfloat16",
  ...
},
"tests": [
  // 新增测试用例：INT4 量化模型
  {
    "test_name": "serving_llama8B_int4_tp1_random_128_128",
    "server_parameters": {
      "model": "hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4"
    },
    "client_parameters": {
      "model": "hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4",
      "dataset_name": "random",
      "random-input-len": 128,
      "random-output-len": 128
    }
  },
  // 新增测试用例：INT8 量化模型
  {
    "test_name": "serving_llama8B_int8_tp1_random_128_128",
    "server_parameters": {
      "model": "RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
    },
    "client_parameters": {
      "model": "RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",
      "dataset_name": "random",
      "random-input-len": 128,
      "random-output-len": 128
    }
  },
  // 新增测试用例：70B 大模型
  {
    "test_name": "serving_llama70B_tp1_random_128_128",
    "server_parameters": {
      "model": "meta-llama/Llama-3.3-70B-Instruct"
    },
    "client_parameters": {
      "model": "meta-llama/Llama-3.3-70B-Instruct",
      "dataset_name": "random",
      "random-input-len": 128,
      "random-output-len": 128
    }
  }
  // ... 其他新测试用例类似
]

文档更新部分示例（新增条目以 + 标记，实际为静态表格）：

<!-- 文本模型表格（部分） -->
| Model | Architecture | Supported |
| ------------------------------------ | ---------------------------------------- | --------- |
| unsloth/gpt-oss-20b | GptOssForCausalLM | ✅ |
| meta-llama/Llama-3.2-1B | LlamaForCausalLM | ✅ |
| meta-llama/Llama-3.3-70B-Instruct | LlamaForCausalLM | ✅ |
| RedHatAI/Meta-Llama-3.1-8B-quantized.w8a8 | LlamaForCausalLM | ✅ |
| hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4 | LlamaForCausalLM | ✅ |
| Qwen/Qwen3-14B | Qwen3ForCausalLM | ✅ |
| Qwen/Qwen3-30B-A3B | Qwen3MoeForCausalLM | ✅ |
| microsoft/Phi-4-reasoning | Phi3ForCausalLM | ✅ |
<!-- 多模态表格也新增了 Llama-4、Gemma-3 等模型 -->

评论区精华

本 PR 没有实质性的 review 讨论。仅有的机器人评论（Claude Code Review 和 Gemini Code Assist）都来自自动化工具，未产生技术讨论；审批人 bigPYJ1151 直接批准，说明变更清晰无争议。

风险与影响

风险：低风险。仅修改测试配置和文档，不涉及核心代码。主要风险是基准测试配置中模型名称或路径错误可能导致测试失败，但作者已实际运行并通过。文档与配置的同步需要确保一致性，但本次更新同时修改了二者，避免了不一致。
影响：
- 对用户：文档更新提供了更准确的 CPU 支持信息，特别是量化模型的可用性。
- 对测试：基准测试配置简化（删除多 TP 和长文本测试），新增多个模型覆盖，有助于提升回归测试的效率和覆盖面。
- 对团队：减少维护成本，统一测试策略为 TP=1 随机输入，便于对比不同模型的性能。

关联脉络

本次 PR 是 vLLM CPU 后端持续演进的一部分。近期 PR #40119 添加了 RVV 优化的注意力 kernel，提升了 CPU 推理性能；本次 PR 则从模型支持文档和基准测试角度，保障了这些优化的可验证性。两者共同体现了 Intel 团队对 CPU 后端的系统性投入。

#42607 Update Intel Xeon model list and vLLM Benchmark Suite BKMs

执行摘要

更新 Intel Xeon 模型列表和 CPU 基准测试配置

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论