#39296 [XPU][UT] update UTs in CI

原始 PR 作者 zhenwei-intel 合并时间 2026-04-09 09:38 文件变更 2 提交数 5 评论 3 代码增减 +2 / -2

执行摘要

更新 XPU CI 测试脚本，忽略 hf3fs 相关单元测试以修复测试失败。

根据Issue评论，测试失败是由于Torch 2.11升级未同步升级Triton 3.7导致的兼容性问题。评论者jikunshang指出“failed case is due to torch 2.11 upgrade. it didn't upgrade triton 3.7 as well. https://github.com/vllm-project/vllm/pull/37947 will fix.”，因此本次PR作为临时修复，通过忽略相关测试来确保CI通过，等待#37947彻底解决依赖问题。

该PR变更简单直接，适合快速浏览以了解CI测试调整。对于技术管理者，建议关注后续PR #37947的进展，确保依赖升级彻底解决测试问题；对于工程师，可注意KV连接器模块的测试覆盖变化，在相关开发中加强本地测试。

讨论亮点

Review讨论较少，主要包含：

gemini-code-assist[bot]的自动评论指出变更内容是“更新硬件CI测试脚本以忽略多个与KV连接器相关的单元测试，特别是排除hf3fs相关测试文件”，无进一步反馈。
jikunshang作为reviewer直接批准，未提出异议。
在Issue评论中，jikunshang建议修复.buildkite/intel_jobs/test-intel.yaml文件，作者随后在提交中采纳。讨论核心围绕测试失败的根因（Torch 2.11升级问题）和临时修复策略，未涉及技术争议。

实现拆解

实现方案聚焦于CI配置调整，涉及两个关键文件：

.buildkite/intel_jobs/test-intel.yaml：修改测试步骤，在原有忽略列表基础上新增忽略test_hf3fs_client.py、test_hf3fs_connector.py、test_hf3fs_metadata_server.py三个测试文件。
.buildkite/scripts/hardware_ci/run-xpu-test.sh：同步更新测试脚本，添加相同的忽略规则，确保本地和CI环境一致。

文件	模块	状态	重要度
`.buildkite/intel_jobs/test-intel.yaml`	CI/Infrastructure	modified	6.0
`.buildkite/scripts/hardware_ci/run-xpu-test.sh`	CI/Infrastructure	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

测试失败根因与修复策略 question

Issue 评论中指出测试失败是由于 Torch 2.11 升级未同步升级 Triton 3.7 导致，并提及后续 PR #37947 将彻底修复。

结论：采用临时方案忽略相关测试，等待 #37947 解决依赖问题。 · 已解决

风险与影响

技术风险较低但需注意：

测试覆盖缺口：忽略hf3fs相关测试可能掩盖KV连接器模块的真实问题，特别是与HF3FS（HuggingFace文件系统）集成相关的功能缺陷。
临时修复依赖：本次变更依赖于后续PR #37947彻底解决依赖问题，若该PR延迟或失败，测试忽略可能长期存在，增加回归风险。
配置一致性风险：仅修改两个CI配置文件，需确保其他测试环境（如本地开发、其他CI流水线）同步调整，否则可能导致测试结果不一致。

影响范围有限：

对用户：无直接影响，属于内部CI基础设施调整。
对系统：确保XPU CI测试通过，维护Intel GPU平台的CI稳定性，避免因测试失败阻塞合并流程。
对团队：为开发者提供更可靠的CI反馈，但测试覆盖减少可能略微增加KV连接器模块的质量风险。影响程度为低，仅涉及测试配置。

测试覆盖缺口临时修复依赖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR更新了XPU CI的测试配置，通过忽略多个hf3fs相关的KV连接器单元测试来修复因Torch 2.11升级导致的测试失败。这是一个临时性基础设施调整，旨在确保CI流水线通过，为后续彻底解决依赖问题的PR（#37947）创造条件。变更影响范围有限，主要涉及CI稳定性，但需注意测试覆盖减少的潜在风险。

功能与动机

为什么做？ 根据Issue评论，XPU CI测试失败是由于Torch 2.11升级未同步升级Triton 3.7引发的兼容性问题。评论者jikunshang指出：

failed case is due to torch 2.11 upgrade. it didn't upgrade triton 3.7 as well. https://github.com/vllm-project/vllm/pull/37947 will fix.

因此，本次PR作为临时修复，通过调整测试范围来确保CI通过，避免阻塞开发流程，同时等待#37947彻底解决依赖版本问题。

实现拆解

实现方案仅涉及两个CI配置文件的微小调整：

文件路径	变更内容	作用
`.buildkite/intel_jobs/test-intel.yaml`	在`pytest`命令的`--ignore`列表中新增`test_hf3fs_client.py`、`test_hf3fs_connector.py`、`test_hf3fs_metadata_server.py`	定义CI流水线测试步骤，忽略特定测试文件
`.buildkite/scripts/hardware_ci/run-xpu-test.sh`	同步添加相同的忽略规则	确保本地和CI环境执行一致的测试命令

关键代码逻辑如下（以yaml文件为例）：

pytest -v -s v1/kv_connector/unit \
  --ignore=v1/kv_connector/unit/test_multi_connector.py \
  --ignore=v1/kv_connector/unit/test_example_connector.py \
  --ignore=v1/kv_connector/unit/test_lmcache_integration.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_client.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_connector.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_metadata_server.py

评论区精华

Review讨论较为简单：

gemini-code-assist[bot] 的自动评论概括了变更：“更新硬件CI测试脚本以忽略多个与KV连接器相关的单元测试，特别是排除hf3fs相关测试文件”。
jikunshang 直接批准，未提出技术争议。

核心讨论发生在Issue评论中，明确了测试失败的根因和修复路径，为本次PR提供了上下文。

风险与影响

风险分析：

测试覆盖缺口：忽略hf3fs测试可能掩盖KV连接器模块中与HuggingFace文件系统集成的潜在缺陷。
临时修复依赖：若#37947延迟或失败，测试忽略可能长期存在，增加回归风险。
配置一致性：需确保其他测试环境（如开发者本地）同步调整，否则可能导致测试结果不一致。

影响分析：

对用户：无直接影响，属于内部CI调整。
对系统：提升XPU CI的稳定性，避免测试失败阻塞合并流程。
对团队：提供更可靠的CI反馈，但测试覆盖减少可能略微增加KV连接器模块的质量风险。

关联脉络

本次PR与历史PR的关联主要体现在：

PR #37947：在Issue评论中被明确提及，将彻底解决Torch/Triton版本不匹配问题，本次PR为其铺平道路，属于同一问题修复链条的前置步骤。
其他CI相关PR：如#38580（ROCm CI修复）、#37980（DeepGEMM集成）等，反映了仓库在持续优化多平台CI基础设施，本次PR是Intel GPU（XPU）方向的具体维护动作。

从更大视角看，这体现了vLLM项目在支持多样化硬件平台（如Intel GPU、AMD ROCm）过程中，对CI稳定性的持续投入。

支持 Prhub ♥

#39296 [XPU][UT] update UTs in CI

执行摘要

更新 XPU CI 测试脚本，忽略 hf3fs 相关单元测试以修复测试失败。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论