Prhub

#27232 [AMD][CI] Remove transformers pin from GLM-5.x nightly jobs

原始 PR 作者 yctseng0211 合并时间 2026-06-04 14:34 文件变更 2 提交数 1 评论 1 代码增减 +0 / -8

执行摘要

移除 GLM-5.x 夜间 CI 的 transformers 版本锁定

GLM-5.x 的 AMD 夜间测试是唯一将 transformers 固定到 commit 96f807a33b75(开发版 5.4.0.dev0)的作业,降级后的旧版本 transformers 缺少 @strict 装饰器等功能,导致 Cohere2MoeConfig 在导入时崩溃。通过移除固定,让这些作业使用镜像默认的 transformers,以统一依赖并验证 GLM-5.1 能否在默认版本上通过测试。

该 PR 值得合入,因为它解决了因依赖版本不一致导致 CI 故障的问题。建议合入后观察一轮夜间 CI 结果,确保 GLM-5.x 测试通过。

讨论亮点

该 PR 的 Review 讨论较少,仅由 bingxche 批准(APPROVED),未产生实质性评论。

实现拆解

该 PR 的变更非常简单,仅涉及两个 CI 配置文件的修改:

  1. nightly-test-amd.yml:移除了 4 处 pip install git+https://github.com/huggingface/transformers.git@96f807a33b75 命令,分别对应 2-GPU GLM-5.1-MXFP4 GSM8K、8-GPU GLM-5.1 DSA、8-GPU GLM-5.1 DSA(MI35x)和 8-GPU GLM-5-MXFP4 作业。
  2. nightly-test-amd-rocm720.yml:类似地移除了 4 处 transformers 固定安装命令,涉及 ROCm 7.2 环境下的 GLM-5.1-MXFP4 GSM8K、8-GPU GLM-5.1 DSA、8-GPU GLM-5.1 DSA(MI35x)和 8-GPU GLM-5-MXFP4 作业。

变更后,这些 job 的依赖安装步骤不再额外覆盖 transformers,而是直接使用 Docker 镜像预装的版本。这样 GLM-5.x 的测试环境与其他 AMD CI 作业保持一致,从而消除因依赖版本差异导致的导入错误。

文件 模块 状态 重要度
.github/workflows/nightly-test-amd.yml CI modified 2.96
.github/workflows/nightly-test-amd-rocm720.yml CI modified 2.96

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  • 回归风险:如果镜像默认的 transformers 版本与 GLM-5.x 模型不兼容,可能导致精度测试失败。不过 PR body 提到这些作业本应是唯一使用旧版本的,因此回归风险较低,且 CI 结果可验证。
  • 测试覆盖:无新增测试,依赖回归仅通过夜间 CI 运行来检测,若失败将影响 AMD 的稳定性。
  • 影响范围:仅影响 AMD 夜间 CI 中 GLM-5.x 相关的 8 个作业(每个工作流 4 个)。
  • 用户/开发者:无直接影响,主要用于内部 CI 稳定性提升。
  • 系统:减少 CI 环境中的特殊依赖配置,简化维护。
  • 团队:AMD CI 维护者受益于更统一的依赖管理;GLM 模型团队需关注夜间测试是否通过。
缺少测试覆盖 依赖隐式变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论