Prhub

#42807 [ROCm][CI] Removed problematic command override mechanism

原始 PR 作者 AndreasKaratzas 合并时间 2026-05-16 17:35 文件变更 1 提交数 1 评论 0 代码增减 +1 / -99

执行摘要

移除 ROCm CI 中导致构建失败的命令覆盖机制

PR 正文指出该变更是为了响应近期 CI 事故(https://buildkite.com/vllm/ci/builds/66482),该事故由 apply_rocm_test_overrides 函数引起的命令覆盖问题导致。因此删除该机制以恢复 CI 稳定性。

对于 ROCm CI 维护者,应审查此 PR 后的 CI 运行趋势,确保未被覆盖的测试取得预期结果。对于其他参与者,此变更体现了对 CI 事故的快速响应,值得了解其背景。

讨论亮点

无实质讨论,变更由维护者 tjtanaa 直接批准。

实现拆解

  1. 删除函数定义:移除 apply_rocm_test_overrides() 函数(约 95 行),其中包含针对模型注册表、LoRA、各类 kernel 测试的硬编码 --ignore 列表和环境变量覆盖。
  2. 移除调用点:在脚本主流程中删除 cmds=$(apply_rocm_test_overrides "$cmds") 及其关联的检查和跳过逻辑。
  3. 更新注释:将注释中引用 apply_rocm_test_overrides 的句子改为通用描述,避免误导。
文件 模块 状态 重要度
.buildkite/scripts/hardware_ci/run-amd-test.sh CI 脚本 modified 5.14

关键符号

apply_rocm_test_overrides

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

主要风险在于之前被 apply_rocm_test_overrides 跳过的测试(如特定模型、attention kernel、marlin 等)现在将在 ROCm CI 中执行,可能导致新的测试失败。需要密切关注 CI 运行结果,及时通过 pytest mark 或配置文件标记不兼容的测试。此外,修复了导致事故的根源,但可能还有其他未发现的隐患。

直接影响范围限于 ROCm CI 维护者:不再需要维护庞大的硬编码忽略列表,但需确保不兼容测试被正确标记。对最终用户无直接影响。脚本简洁度提升,减少未来因覆盖机制引发的意外行为。

CI 回归风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论