# PR #38505 完整报告

- 仓库：`vllm-project/vllm`
- 标题：[ci] Soft fail and disable retry for AMD build image job
- 合并时间：2026-03-30 14:05
- 原文链接：http://prhub.com.cn/vllm-project/vllm/pull/38505

---

# 执行摘要

- 一句话：为 AMD 构建作业启用软失败并禁用重试，以容忍 flaky 失败。
- 推荐动作：该 PR 变更简单，代码阅读价值有限，但 review 讨论揭示了 CI 失败处理的设计权衡，值得关注以了解团队决策。建议工程师重点阅读讨论部分，无需深入代码细节。

# 功能与动机

PR body 未提供明确动机，但从 review 讨论推断，AMD 构建作业存在 flakiness，设置软失败可避免 CI 管道完全阻塞，作为临时缓解措施而非修复根本原因。

# 实现拆解

仅修改文件 `.buildkite/hardware_tests/amd.yaml`，关键变更包括：1) 添加 `soft_fail: true` 使作业失败时不阻塞流水线；2) 删除 `retry` 配置，包括对 agent lost（退出状态 -1 和 -10）和机器失败（退出状态 1）的自动重试逻辑。

关键文件：
- `.buildkite/hardware_tests/amd.yaml`（模块 CI/AMD 构建作业）: 这是 AMD 硬件测试的 Buildkite 配置文件，变更直接控制构建作业的失败行为和重试策略，是 CI 管道的核心配置。

关键符号：未识别


# 评论区精华

主要讨论来自 gemini-code-assist[bot]，指出将作业设置为软失败并移除重试会掩盖 AMD 特定的构建问题，降低代码质量，并建议优先修复作业的 flakiness 而非仅静默失败。讨论者强调 'silencing failures instead of addressing their root cause'，但 PR 最终被合并，表明团队决定接受风险或作为临时缓解。

- 软失败与重试移除的风险 (design): PR 被合并，表明团队决定接受风险或作为临时措施，未直接回应建议。

# 风险与影响

- 风险：风险包括：1) AMD 构建问题可能被忽略，导致回归或代码质量下降，具体文件为 `.buildkite/hardware_tests/amd.yaml` 中的软失败设置；2) CI 管道完整性受损，失败被静默可能隐藏关键错误；3) 移除重试逻辑可能增加因瞬态错误导致的构建失败频率。
- 影响：影响范围限于 AMD 相关的 CI 作业：对用户直接影响较小，仅涉及构建过程；对团队需加强监控以避免未检测到的 breakages；系统层面，CI 可靠性短期可能改善，但长期有掩盖真实问题的风险。
- 风险标记：隐藏失败风险 , 缺乏根本修复 , CI 完整性受损

# 关联脉络

- PR #38415 [ROCm][CI] Fix UV install in Dockerfile.rocm to detect curl failures and retry: 同样处理 ROCm CI 可靠性，涉及重试机制，与本 PR 的软失败策略形成对比。
- PR #38317 [ROCm][CI] Enable hybrid chunked prefill test: 涉及 AMD/ROCm CI 测试配置，同为 rocm 和 ci 标签的 PR，展示 CI 演进脉络。
- PR #38413 [ROCm] [Release] Update ROCm variant from rocm700 to rocm721: 更新 ROCm 基础设施，与本 PR 共享 rocm 标签，反映团队对 AMD 生态的持续维护。