Prhub

#42607 Update Intel Xeon model list and vLLM Benchmark Suite BKMs

原始 PR 作者 louie-tsai 合并时间 2026-05-15 13:14 文件变更 2 提交数 3 评论 1 代码增减 +118 / -159

执行摘要

更新 Intel Xeon 模型列表和 CPU 基准测试配置

PR body 指出 'Purpose update Intel Xeon model list and vLLM Benchmark Suite BKMs for 0.20.2 release',目的是为 vLLM 0.20.2 版本发布更新 Intel Xeon 支持的模型列表和基准测试最佳实践。确保文档和性能测试与实际支持能力同步。

这是一个常规的维护性 PR,如果关心 CPU 后端支持进展和性能基准测试配置,值得阅读以了解新增的模型和测试策略变化。设计上无显著亮点,但配置更新体现了对覆盖率和简化性的权衡。

讨论亮点

无实质讨论。该 PR 在单次 review 回合即获得批准(approval),仅有的机器人评论未产生有效技术讨论。

实现拆解

  1. 更新 CPU 基准测试 JSON 配置 (.buildkite/performance-benchmarks/tests/serving-tests-cpu-text.json):将原有的多个基于 ShareGPT 数据集和不同 tensor_parallel 规模的测试用例替换为固定 TP=1 的随机输入测试用例,并新增多达十几个新模型变体,包括 INT4 量化(AWQ)、INT8 量化(w8a8)、Llama 3.2 1B/3B、Llama 3.3 70B、Granite 2B、Qwen3 系列(1.7B/4B/8B/14B)等。删除了原来的 TP=2/TP=4 和长输出(2048)测试用例,大幅简化了配置,同时扩大了模型覆盖范围。
  2. 更新 CPU 支持模型文档 (docs/models/hardware_supported_models/cpu.md):在文本模型表格中新增了约 20 个新模型条目,包括 GPT-Oss、多个量化版本(RedHatAI w8a8、hugging-quants AWQ INT4、TheBloke AWQ/GPTQ)、Qwen3 系列全尺寸、Phi-4、Mistral AWQ 等;在多模态表格中添加了 Llama-4、Gemma-3 等模型。并调整了表格格式,移除了图例说明中的部分表情符号。
  3. 配置同步与验证:作者在 Intel 硬件(AWS m8i.24xlarge)上运行了 vLLM Benchmark Suite 并通过,确保新配置可用。Mergify 也自动生成了文档预览。
文件 模块 状态 重要度
.buildkite/performance-benchmarks/tests/serving-tests-cpu-text.json CPU 基准测试 modified 5.31
docs/models/hardware_supported_models/cpu.md 模型文档 modified 3.37

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。仅涉及测试配置文件(JSON)和文档(Markdown)的更改,不涉及任何核心代码。潜在的次要风险包括如果模型名错误或实际不可用可能导致基准测试失败,但作者已通过测试验证。文档列表与实际支持功能的同步需要确保一致性。

对用户:文档更新使 CPU 用户能够准确了解支持的模型列表和量化选项。对系统:基准测试配置更新将影响后续 vLLM 版本发布前的性能回归测试任务,新的测试用例更聚焦于典型配置。对团队:简化了基准测试配置,减少了维护负担(删除了多 TP 和 ShareGPT 测试)。影响范围限 CPU 后端。

低风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论