#37691 [cpu][ci] remove soft-fail for Arm CI and add quant model tests

原始 PR 作者 fadara01 合并时间 2026-03-26 15:03 文件变更 2 提交数 1 评论 7 代码增减 +8 / -2

执行摘要

移除 Arm CI 的软失败标志并添加量化模型测试。

根据 PR 正文，Arm CI 管道已经运行了几个月（在 30 分钟内完成）且无故障，只在 vLLM 有真正 bug 时才失败，因此是时候移除软失败。此外，添加 w8a8 量化模型测试以扩展测试覆盖。

该 PR 值得快速浏览，以了解 CI 配置的变更和 Arm CPU 量化测试的添加。关注点在于测试覆盖的权衡决策，以及如何针对不同后端定制测试。

讨论亮点

在 review 中，gemini-code-assist[bot] 指出 PR 描述中提及添加‘量化模型测试’（复数），但只运行单个测试函数，建议运行整个 tests/quantization/test_compressed_tensors.py 文件以确保覆盖。作者 fadara01 回应说其他测试不适用于 CPU 后端，当前实现正确。最终决策是保持原有测试命令，因为它针对 CPU 后端定制。

实现拆解

实现分为两部分：一是在 .buildkite/hardware_tests/cpu.yaml 中将 Arm CPU Test 步骤的 soft_fail 设置为 false，使其成为硬性要求。二是在 .buildkite/scripts/hardware_ci/run-cpu-test-arm.sh 中，将核心范围从 0-16 扩展到 0-31，并添加一个针对 CPU 后端的 w8a8 量化模型的 pytest 测试命令。

文件	模块	状态	重要度
`.buildkite/hardware_tests/cpu.yaml`	CI	modified	4.0
`.buildkite/scripts/hardware_ci/run-cpu-test-arm.sh`	Testing	modified	5.0

关键符号

cpu_tests

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

量化测试覆盖的充分性 测试

gemini-code-assist[bot] 建议运行整个 tests/quantization/test_compressed_tensors.py 文件以增加覆盖，但作者 fadara01 回应其他测试不适用于 CPU 后端。

结论：保持仅运行单个测试函数 test_compressed_tensors_w8a8_logprobs，因为它是针对 CPU 后端定制的。 · 已解决

风险与影响

主要风险包括：

移除 soft-fail 后，Arm CI 失败将直接阻止合并，如果测试不稳定可能导致误判，但鉴于管道历史稳定，风险较低。
添加的量化测试仅覆盖 w8a8 压缩张量，可能遗漏其他量化格式或场景的回归测试。

对 CI 流程的影响：Arm CPU 测试现在成为硬性要求，提高代码质量门槛，但可能增加合并复杂度。对测试覆盖的影响：增强了 Arm CPU 上的量化模型验证，特别是 w8a8 格式，但测试范围有限，可能未充分覆盖所有量化相关代码路径。

测试覆盖不足 CI 依赖变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR 37691 分析报告

执行摘要

该 PR 移除了 Arm CPU CI 管道的软失败设置，使其成为必需检查，并添加了 w8a8 量化模型测试。这反映了 Arm CI 的稳定性和对量化功能的验证需求，影响 CI 流程和测试覆盖。

功能与动机

根据 PR 正文，Arm CI 管道已经稳定运行数月（在 30 分钟内完成），只在 vLLM 有真正 bug 时才失败，因此移除软失败以增强代码质量保证。同时，添加 w8a8 量化模型测试以扩展 Arm CPU 上的功能验证，确保量化模块的兼容性。

实现拆解

CI 配置变更：在 .buildkite/hardware_tests/cpu.yaml 中，将 Arm CPU Test 步骤的 soft_fail 设置为 false，使其成为硬性要求。
测试脚本更新：在 .buildkite/scripts/hardware_ci/run-cpu-test-arm.sh 中：
- 将核心范围从 CORE_RANGE=${CORE_RANGE:-0-16} 和 OMP_CORE_RANGE=${OMP_CORE_RANGE:-0-16} 扩展到 0-31，以利用更多 CPU 核心提升性能。
- 添加命令运行 pytest -x -v -s tests/quantization/test_compressed_tensors.py::test_compressed_tensors_w8a8_logprobs 测试，专门针对 CPU 后端验证 w8a8 量化模型。

评论区精华

gemini-code-assist[bot] 评论：“The PR description states that it 'Adds w8a8 quantized model tests' (plural), but this command only executes a single test function... consider running all tests within the file.”
作者 fadara01 回应：“other tests don't work with CPU backend, what i do here is correct.”
讨论焦点是测试覆盖的充分性，最终决定保持定制化测试，以避免在 CPU 后端上运行不兼容的测试。

风险与影响

风险：移除 soft-fail 后，任何 Arm CI 失败都将直接阻止代码合并，如果测试不稳定可能导致 false negatives；但鉴于管道历史稳定，风险较低。添加的量化测试仅针对 w8a8 格式，可能遗漏其他量化场景的回归测试。
影响：对 CI 流程：Arm CPU 测试成为硬性要求，提高代码质量门槛，但可能增加合并复杂度。对测试覆盖：增强了 Arm CPU 上的量化验证，但范围有限，需关注后续是否扩展测试以覆盖更多量化格式。

关联脉络

与此 PR 相关的历史 PR 包括 #38092（修复压缩张量格式的 Marlin FP8 内核）和 #36058（迁移量化内核），它们都涉及量化功能，显示仓库正在加强量化测试和内核支持。这表明一个趋势：vLLM 项目在持续优化量化模块，并扩展跨平台（如 CPU 和 GPU）的测试覆盖。

#37691 [cpu][ci] remove soft-fail for Arm CI and add quant model tests

执行摘要

移除 Arm CI 的软失败标志并添加量化模型测试。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论