Prhub

#39296 [XPU][UT] update UTs in CI

原始 PR 作者 zhenwei-intel 合并时间 2026-04-09 09:38 文件变更 2 提交数 5 评论 3 代码增减 +2 / -2

执行摘要

更新 XPU CI 测试脚本,忽略 hf3fs 相关单元测试以修复测试失败。

根据Issue评论,测试失败是由于Torch 2.11升级未同步升级Triton 3.7导致的兼容性问题。评论者jikunshang指出“failed case is due to torch 2.11 upgrade. it didn't upgrade triton 3.7 as well. https://github.com/vllm-project/vllm/pull/37947 will fix.”,因此本次PR作为临时修复,通过忽略相关测试来确保CI通过,等待#37947彻底解决依赖问题。

该PR变更简单直接,适合快速浏览以了解CI测试调整。对于技术管理者,建议关注后续PR #37947的进展,确保依赖升级彻底解决测试问题;对于工程师,可注意KV连接器模块的测试覆盖变化,在相关开发中加强本地测试。

讨论亮点

Review讨论较少,主要包含:

  1. gemini-code-assist[bot]的自动评论指出变更内容是“更新硬件CI测试脚本以忽略多个与KV连接器相关的单元测试,特别是排除hf3fs相关测试文件”,无进一步反馈。
  2. jikunshang作为reviewer直接批准,未提出异议。
  3. 在Issue评论中,jikunshang建议修复.buildkite/intel_jobs/test-intel.yaml文件,作者随后在提交中采纳。讨论核心围绕测试失败的根因(Torch 2.11升级问题)和临时修复策略,未涉及技术争议。

实现拆解

实现方案聚焦于CI配置调整,涉及两个关键文件:

  1. .buildkite/intel_jobs/test-intel.yaml:修改测试步骤,在原有忽略列表基础上新增忽略test_hf3fs_client.pytest_hf3fs_connector.pytest_hf3fs_metadata_server.py三个测试文件。
  2. .buildkite/scripts/hardware_ci/run-xpu-test.sh:同步更新测试脚本,添加相同的忽略规则,确保本地和CI环境一致。
文件 模块 状态 重要度
.buildkite/intel_jobs/test-intel.yaml CI/Infrastructure modified 6.0
.buildkite/scripts/hardware_ci/run-xpu-test.sh CI/Infrastructure modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

测试失败根因与修复策略 question

Issue 评论中指出测试失败是由于 Torch 2.11 升级未同步升级 Triton 3.7 导致,并提及后续 PR #37947 将彻底修复。

结论:采用临时方案忽略相关测试,等待 #37947 解决依赖问题。 · 已解决

风险与影响

技术风险较低但需注意:

  1. 测试覆盖缺口:忽略hf3fs相关测试可能掩盖KV连接器模块的真实问题,特别是与HF3FS(HuggingFace文件系统)集成相关的功能缺陷。
  2. 临时修复依赖:本次变更依赖于后续PR #37947彻底解决依赖问题,若该PR延迟或失败,测试忽略可能长期存在,增加回归风险。
  3. 配置一致性风险:仅修改两个CI配置文件,需确保其他测试环境(如本地开发、其他CI流水线)同步调整,否则可能导致测试结果不一致。

影响范围有限:

  1. 对用户:无直接影响,属于内部CI基础设施调整。
  2. 对系统:确保XPU CI测试通过,维护Intel GPU平台的CI稳定性,避免因测试失败阻塞合并流程。
  3. 对团队:为开发者提供更可靠的CI反馈,但测试覆盖减少可能略微增加KV连接器模块的质量风险。影响程度为低,仅涉及测试配置。
测试覆盖缺口 临时修复依赖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR更新了XPU CI的测试配置,通过忽略多个hf3fs相关的KV连接器单元测试来修复因Torch 2.11升级导致的测试失败。这是一个临时性基础设施调整,旨在确保CI流水线通过,为后续彻底解决依赖问题的PR(#37947)创造条件。变更影响范围有限,主要涉及CI稳定性,但需注意测试覆盖减少的潜在风险。

功能与动机

为什么做? 根据Issue评论,XPU CI测试失败是由于Torch 2.11升级未同步升级Triton 3.7引发的兼容性问题。评论者jikunshang指出:

failed case is due to torch 2.11 upgrade. it didn't upgrade triton 3.7 as well. https://github.com/vllm-project/vllm/pull/37947 will fix.

因此,本次PR作为临时修复,通过调整测试范围来确保CI通过,避免阻塞开发流程,同时等待#37947彻底解决依赖版本问题。

实现拆解

实现方案仅涉及两个CI配置文件的微小调整:

文件路径 变更内容 作用
.buildkite/intel_jobs/test-intel.yaml pytest命令的--ignore列表中新增test_hf3fs_client.pytest_hf3fs_connector.pytest_hf3fs_metadata_server.py 定义CI流水线测试步骤,忽略特定测试文件
.buildkite/scripts/hardware_ci/run-xpu-test.sh 同步添加相同的忽略规则 确保本地和CI环境执行一致的测试命令

关键代码逻辑如下(以yaml文件为例):

pytest -v -s v1/kv_connector/unit \
  --ignore=v1/kv_connector/unit/test_multi_connector.py \
  --ignore=v1/kv_connector/unit/test_example_connector.py \
  --ignore=v1/kv_connector/unit/test_lmcache_integration.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_client.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_connector.py \
  --ignore=v1/kv_connector/unit/test_hf3fs_metadata_server.py

评论区精华

Review讨论较为简单:

  • gemini-code-assist[bot] 的自动评论概括了变更:“更新硬件CI测试脚本以忽略多个与KV连接器相关的单元测试,特别是排除hf3fs相关测试文件”。
  • jikunshang 直接批准,未提出技术争议。

核心讨论发生在Issue评论中,明确了测试失败的根因和修复路径,为本次PR提供了上下文。

风险与影响

风险分析

  1. 测试覆盖缺口:忽略hf3fs测试可能掩盖KV连接器模块中与HuggingFace文件系统集成的潜在缺陷。
  2. 临时修复依赖:若#37947延迟或失败,测试忽略可能长期存在,增加回归风险。
  3. 配置一致性:需确保其他测试环境(如开发者本地)同步调整,否则可能导致测试结果不一致。

影响分析

  • 对用户:无直接影响,属于内部CI调整。
  • 对系统:提升XPU CI的稳定性,避免测试失败阻塞合并流程。
  • 对团队:提供更可靠的CI反馈,但测试覆盖减少可能略微增加KV连接器模块的质量风险。

关联脉络

本次PR与历史PR的关联主要体现在:

  • PR #37947:在Issue评论中被明确提及,将彻底解决Torch/Triton版本不匹配问题,本次PR为其铺平道路,属于同一问题修复链条的前置步骤。
  • 其他CI相关PR:如#38580(ROCm CI修复)、#37980(DeepGEMM集成)等,反映了仓库在持续优化多平台CI基础设施,本次PR是Intel GPU(XPU)方向的具体维护动作。

从更大视角看,这体现了vLLM项目在支持多样化硬件平台(如Intel GPU、AMD ROCm)过程中,对CI稳定性的持续投入。

参与讨论