PR 分析报告:删除 ROCm CI 中有问题的命令覆盖机制
执行摘要
此 PR 移除了 ROCm CI 脚本中的 apply_rocm_test_overrides 函数,该函数通过硬编码忽略列表和模型过滤器覆盖 pytest 命令,并导致近期 CI 构建失败。变更后脚本更简洁,但需确保测试标记正确管理。
功能与动机
PR 直接响应 CI 事故(构建 #66482),删除被怀疑引起失败的机制。该机制维护成本高且易出错,移除以恢复 CI 稳定性。
实现拆解
- 删除函数定义:移除
apply_rocm_test_overrides() 函数,包含约 95 行的 --ignore 选项、模型过滤器(如 BambaForCausalLM、GritLM)等硬编码规则。
- 移除调用点:在脚本主流程中删除
cmds=$(apply_rocm_test_overrides "$cmds") 及其相关联的检查和跳过逻辑。
- 更新注释:将注释中提及
apply_rocm_test_overrides 的句子修改为通用描述,避免误导。
无新增逻辑,变更仅为删除。修改后的脚本可在 .buildkite/scripts/hardware_ci/run-amd-test.sh 中查看。
评论区精华
无实质性讨论。变更由维护者 tjtanaa 直接批准。
风险与影响
- 风险:之前被
apply_rocm_test_overrides 跳过的测试现在将被执行,可能在 ROCm 上失败,导致 CI 不稳定。需关注后续 CI 运行结果,及时标记不兼容测试。
- 影响:ROCm CI 维护者不再需要维护硬编码 ignore 列表;对最终用户无直接影响。脚本更加简洁,减少未来维护成本。
关联脉络
无已知直接关联 PR。该修复源于近期 CI 事故,属于紧急恢复措施。
参与讨论