Prhub

#22727 Revert "Upgrade CI default CUDA version from 12.9 to 13.0"

原始 PR 作者 Fridge003 合并时间 2026-04-14 05:39 文件变更 5 提交数 1 评论 2 代码增减 +33 / -33

执行摘要

回滚 CUDA 13.0 升级,恢复 CI 默认 CUDA 版本为 12.9 以解决内核测试问题。

在关联Issue #21441的评论中,作者Fridge003指出'There are some kernel tests yet to be fixed',表明升级到CUDA 13.0后存在未修复的内核测试问题,因此决定回滚以维持CI流水线的稳定性。

该PR值得基础设施团队精读,关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。

讨论亮点

无review评论或直接讨论。决策基于Issue #21441中Fridge003的评论,指出内核测试未修复,因此执行回滚。

实现拆解

实现方案是回滚PR #21441的所有变更,将CUDA版本从13.0恢复为12.9。关键改动点包括:

  1. CI工作流文件(.github/workflows/pr-test.yml)中,将构建矩阵的cuda-version从13.0改为12.9,并注释掉13.0的配置;
  2. Python依赖配置文件(python/pyproject.toml)中,将cuda-python依赖从>=13.0降级为==12.9,并将Torch索引从cu130改回cu129;
  3. CI脚本(如ci_install_dependency.sh、ci_download_flashinfer_jit_cache.sh)中,将CU_VERSION变量从cu130改回cu129;
  4. ci_install_deepep.sh中,调整了Blackwell架构的编译配置,以应对CI环境报告错误CUDA版本的问题。
文件 模块 状态 重要度
.github/workflows/pr-test.yml infra modified 7.0
python/pyproject.toml dependencies modified 6.0
scripts/ci/cuda/ci_install_dependency.sh infra modified 6.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

内核测试失败导致回滚决策 测试

Fridge003 在 Issue #21441 中评论 'There are some kernel tests yet to be fixed',指出升级到 CUDA 13.0 后内核测试未修复。

结论:基于测试问题,决定回滚 CUDA 版本以恢复 CI 稳定性。 · 已解决

风险与影响

风险包括:

  1. 回滚可能暂时掩盖CUDA 13.0兼容性问题,长期仍需解决;
  2. 依赖版本降级可能导致与其他新特性的冲突,例如Torch 2.11默认使用CUDA 13.0;
  3. 环境配置不一致风险,如ci_install_deepep.sh中提到的CI机器错误报告CUDA版本,可能导致编译错误;
  4. 缺少测试覆盖,回滚后未添加额外测试验证稳定性。

影响范围主要限于CI构建和测试环境,对最终用户透明。影响程度中等:确保CI流水线稳定运行,避免测试失败阻塞开发;但延迟了CUDA版本升级,可能影响新硬件(如Blackwell)支持和性能优化。

测试失败 环境配置不一致 依赖版本回滚

关联 Issue

#21441 Upgrade CI default CUDA version from 12.9 to 13.0

完整报告

参与讨论