Prhub

#24916 ci: run H20 stage with CUDA 13

原始 PR 作者 HanHan009527 合并时间 2026-05-11 11:18 文件变更 1 提交数 1 评论 4 代码增减 +0 / -1

执行摘要

H20 CI 阶段默认 CUDA 版本升级至 13.0

H20 CI runner 已经使用 CUDA 13.0,但 stage-c-test-8-gpu-h20 强制指定了 CU_VERSION: cu129,导致依赖安装时因 CUDA 版本与 PyTorch 编译版本不匹配而构建失败(具体报错:RuntimeError: The detected CUDA version (13.0) mismatches the version that was used to compile PyTorch (12.9))。

该 PR 为简单的 CI 配置修复,无需精读代码。但体现了团队维护 CI 环境同步的务实做法,对于关注 CI 稳定性的读者有参考价值。

讨论亮点

无 review 评论。PR 作者 HanHan009527 在 issue 评论中请求触发独立 CI 运行,测试通过后由 ShangmingCai 合并。

实现拆解

  1. 在 .github/workflows/pr-test.yml 文件中,找到 H20 CI 阶段(stage-c-test-8-gpu-h20)的 env 配置块。
  2. 删除其中 CU_VERSION: cu129 这一行。
  3. 删除后,该阶段将使用脚本 scripts/ci/cuda/ci_install_dependency.sh 中定义的默认 CUDA 版本 cu130,与 H20 runner 环境一致。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI modified 2.41

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:仅删除一行环境变量覆盖,使 CUDA 版本回归默认值;默认值 cu130 已用于 H100 等其他阶段,经验证稳定。需确认 H20 runner 确实已统一安装 CUDA 13.0 环境(PR body 已说明当前 runner 使用 CUDA 13.0)。

影响范围仅限于 H20 CI 阶段的依赖安装与测试,不会影响其他硬件平台或生产环境。H20 的 CI 测试将使用 CUDA 13.0 对应的 PyTorch 和扩展,避免版本冲突导致的构建失败。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论