# PR #38941 完整报告

- 仓库：`vllm-project/vllm`
- 标题：[ci] Remove soft fail for AMD image build job
- 合并时间：2026-04-04 04:42
- 原文链接：http://prhub.com.cn/vllm-project/vllm/pull/38941

---

# 执行摘要

- 一句话：移除 AMD 镜像构建作业的 soft_fail 配置，使构建失败时正确报错。
- 推荐动作：该 PR 变更简单，无需深入精读，但值得关注其反映的 CI 质量改进趋势。建议团队监控 AMD 构建作业的失败率，确保变更不会导致 CI 过度失败。

# 功能与动机

从 PR 标题和 review 评论可知，该变更旨在确保 AMD 镜像构建作业失败时正确使构建失败，而非软性忽略。review 评论明确指出：“确保此步骤的失败现在会正确使构建失败”，表明之前配置可能导致构建问题被掩盖。

# 实现拆解

仅修改了一个 CI 配置文件：
1. 在 .buildkite/hardware_tests/amd.yaml 中，删除了 soft_fail: true 配置项。
2. 该配置项原本位于 steps 下的某个作业定义中，移除后该作业失败将直接导致构建失败。

关键文件：
- `.buildkite/hardware_tests/amd.yaml`（模块 CI/ 构建流水线）: 唯一修改的文件，移除了 soft_fail 配置，直接影响 AMD 硬件测试的 CI 行为。

关键符号：未识别


# 评论区精华

review 讨论非常简短，只有两个评论：
1. hmellor 的批准评论为空，表明变更被认可。
2. gemini-code-assist[bot] 的评论解释了变更目的：“确保此步骤的失败现在会正确使构建失败”，并确认没有其他反馈。
没有争议或未解决的疑虑，变更简单直接。

- soft_fail 配置移除的影响 (other): 变更被认可，没有争议。

# 风险与影响

- 风险：风险较低但需注意：
 1. 回归风险：移除 soft_fail 后，AMD 镜像构建作业的任何失败都将直接导致整个 CI 流水线失败，可能增加 CI 失败频率，需要确保 AMD 构建环境稳定。
 2. 兼容性风险：无，仅影响 CI 行为。
 3. 安全风险：无。
风险主要在于可能暴露之前被掩盖的构建问题，导致 CI 更频繁失败。

- 影响：影响范围有限但重要：
 1. 对用户：无直接影响，仅影响内部 CI 流程。
 2. 对系统：提高 CI 可靠性，确保 AMD 相关构建问题能被及时发现。
 3. 对团队：开发人员将更早发现 AMD 构建问题，但可能需要更频繁地处理 CI 失败。
影响程度中等，因为 CI 稳定性对项目质量至关重要。

- 风险标记：CI 稳定性影响

# 关联脉络

- PR #38585 [ROCm][CI/Build] Fix the pytest hook to properly print out the summary: 同属 ROCm/CI 相关修复，涉及 CI 配置调整，反映对 ROCm 平台 CI 稳定性的持续改进。
- PR #38904 [XPU][CI] Skip test_topp_only and test_topk_and_topp cases on Intel GPU in CI: 同属 CI 配置调整，涉及硬件特定测试的跳过逻辑，与本 PR 的 AMD 硬件测试配置修改类似。
- PR #38899 [XPU][CI] Skip test_topk_only cases on Intel GPU in CI: 同属 CI 配置调整，涉及测试跳过逻辑，反映项目对不同硬件平台 CI 处理的精细化。