Prhub

#21441 Upgrade CI default CUDA version from 12.9 to 13.0

原始 PR 作者 alisonshao 合并时间 2026-04-13 12:48 文件变更 5 提交数 7 评论 3 代码增减 +33 / -33

执行摘要

将 CI 默认 CUDA 版本从 12.9 升级到 13.0,以匹配 PyTorch 2.11 默认。

根据PR body,动机是'Upgrade CI default CUDA from 12.9 to 13.0 to match Torch 2.11's default'。此外,所有CI runner已具备驱动580+(支持CUDA 13.0),B200 Novita升级到驱动590(支持CUDA 13.1),为升级提供硬件支持。

对于技术管理者和工程师,建议快速浏览此PR以了解CUDA版本升级的CI配置变更,重点关注ci_install_dependency.sh中的wheel安装逻辑和测试计划执行情况,确保CI稳定后再推进Docker镜像更新。

讨论亮点

Review中没有具体评论,但提交历史显示基于reviewer请求移除了Dockerfile变更(提交消息:'Per reviewer request — test CI/script changes first before updating Docker images.')。这表明review过程中采取了谨慎的测试策略,先验证CI脚本变更再更新Docker镜像,以减少风险。

实现拆解

实现涉及五个关键文件更新:

1) .github/workflows/pr-test.yml:将CI构建矩阵中的cuda-version从12.9改为13.0,并更新所有wheel artifact模式以匹配新版本。
2) python/pyproject.toml:更新cuda-python依赖为>=13.0,并将torch索引从cu129改为cu130,确保包安装与CUDA 13.0兼容。
3) scripts/ci/cuda/ci_download_flashinfer_jit_cache.sh:更新CU_VERSION引用从cu129到cu130,保持脚本一致性。
4) scripts/ci/cuda/ci_install_deepep.sh:移除针对CUDA >12.8时丢弃sm_103的workaround,启用Blackwell架构支持,优化DeepEP构建。
5) scripts/ci/cuda/ci_install_dependency.sh:更新CU_VERSION为cu130,并修复sgl-kernel wheel安装逻辑以处理+cu130后缀文件名,避免安装失败。

文件 模块 状态 重要度
.github/workflows/pr-test.yml CI/Infrastructure modified 8.0
python/pyproject.toml Dependencies modified 7.0
scripts/ci/cuda/ci_install_dependency.sh CI/Infrastructure modified 7.0
scripts/ci/cuda/ci_install_deepep.sh CI/Infrastructure modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

测试策略优化与 Dockerfile 变更移除 设计

基于 reviewer 请求,先测试 CI 脚本变更再更新 Docker 镜像,以分阶段降低风险。

结论:移除了 Dockerfile 变更,专注于验证 CI 脚本升级,确保稳定性后再考虑镜像更新。 · 已解决

风险与影响

风险包括:

1) 兼容性问题:CUDA 13.0可能不兼容某些现有sgl-kernel或依赖,如torchaudio版本冲突(在ci_install_dependency.sh中提及)。
2) CI构建失败:版本变更可能导致构建错误或测试失败,特别是sgl-kernel wheel安装逻辑修改(ci_install_dependency.sh)若文件名模式不匹配会失败。
3) 依赖冲突:更新torch索引和cuda-python可能影响其他包安装,需确保所有环境一致。

影响范围:

1) CI环境:所有使用默认CUDA版本的CI runner将切换到13.0,影响构建和测试流程,可能提升性能或引入新特性支持。
2) 开发者:需要确保本地开发环境与CI一致,可能需升级CUDA工具链以避免差异。
3) 系统:sgl-kernel构建将基于CUDA 13.0,可能优化Blackwell架构兼容性,但需验证内核稳定性。影响程度中等,主要局限于基础设施和测试流程。

依赖版本升级 CI 构建失败风险 兼容性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论