Prhub

#21441 Upgrade CI default CUDA version from 12.9 to 13.0

sgl-project/sglang · 作者 alisonshao · 合并时间 2026-04-13 12:48

分析状态 已生成
文件变更 5提交数 7 · 评论 3
代码增减 +33 / -33
dependencies run-ci sgl-kernel

执行摘要

将 CI 默认 CUDA 版本从 12.9 升级到 13.0,以匹配 PyTorch 2.11 默认。

根据PR body,动机是'Upgrade CI default CUDA from 12.9 to 13.0 to match Torch 2.11's default'。此外,所有CI runner已具备驱动580+(支持CUDA 13.0),B200 Novita升级到驱动590(支持CUDA 13.1),为升级提供硬件支持。

对于技术管理者和工程师,建议快速浏览此PR以了解CUDA版本升级的CI配置变更,重点关注ci_install_dependency.sh中的wheel安装逻辑和测试计划执行情况,确保CI稳定后再推进Docker镜像更新。

讨论亮点

Review中没有具体评论,但提交历史显示基于reviewer请求移除了Dockerfile变更(提交消息:'Per reviewer request — test CI/script changes first before updating Docker images.')。这表明review过程中采取了谨慎的测试策略,先验证CI脚本变更再更新Docker镜像,以减少风险。

实现拆解

实现涉及五个关键文件更新:1) .github/workflows/pr-test.yml:将CI构建矩阵中的cuda-version从12.9改为13.0,并更新所有wheel artifact模式以匹配新版本。2) python/pyproject.toml:更新cuda-python依赖为>=13.0,并将torch索引从cu129改为cu130,确保包安装与CUDA 13.0兼容。3) scripts/ci/cuda/ci_download_flashinfer_jit_cache.sh:更新CU_VERSION引用从cu129到cu130,保持脚本一致性。4) scripts/ci/cuda/ci_install_deepep.sh:移除针对CUDA >12.8时丢弃sm_103的workaround,启用Blackwell架构支持,优化DeepEP构建。5) scripts/ci/cuda/ci_install_dependency.sh:更新CU_VERSION为cu130,并修复sgl-kernel wheel安装逻辑以处理+cu130后缀文件名,避免安装失败。

文件 模块 状态 重要度
.github/workflows/pr-test.yml CI/Infrastructure modified 8.0
python/pyproject.toml Dependencies modified 7.0
scripts/ci/cuda/ci_install_dependency.sh CI/Infrastructure modified 7.0
scripts/ci/cuda/ci_install_deepep.sh CI/Infrastructure modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

测试策略优化与 Dockerfile 变更移除 设计

基于 reviewer 请求,先测试 CI 脚本变更再更新 Docker 镜像,以分阶段降低风险。

结论:移除了 Dockerfile 变更,专注于验证 CI 脚本升级,确保稳定性后再考虑镜像更新。 · 已解决

风险与影响

风险包括:1) 兼容性问题:CUDA 13.0可能不兼容某些现有sgl-kernel或依赖,如torchaudio版本冲突(在ci_install_dependency.sh中提及)。2) CI构建失败:版本变更可能导致构建错误或测试失败,特别是sgl-kernel wheel安装逻辑修改(ci_install_dependency.sh)若文件名模式不匹配会失败。3) 依赖冲突:更新torch索引和cuda-python可能影响其他包安装,需确保所有环境一致。

影响范围:1) CI环境:所有使用默认CUDA版本的CI runner将切换到13.0,影响构建和测试流程,可能提升性能或引入新特性支持。2) 开发者:需要确保本地开发环境与CI一致,可能需升级CUDA工具链以避免差异。3) 系统:sgl-kernel构建将基于CUDA 13.0,可能优化Blackwell架构兼容性,但需验证内核稳定性。影响程度中等,主要局限于基础设施和测试流程。

依赖版本升级 CI 构建失败风险 兼容性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:将CI默认CUDA版本从12.9升级到13.0,以匹配PyTorch 2.11默认。
  • 推荐动作:对于技术管理者和工程师,建议快速浏览此PR以了解CUDA版本升级的CI配置变更,重点关注ci_install_dependency.sh中的wheel安装逻辑和测试计划执行情况,确保CI稳定后再推进Docker镜像更新。

功能与动机

根据PR body,动机是'Upgrade CI default CUDA from 12.9 to 13.0 to match Torch 2.11's default'。此外,所有CI runner已具备驱动580+(支持CUDA 13.0),B200 Novita升级到驱动590(支持CUDA 13.1),为升级提供硬件支持。

实现拆解

实现涉及五个关键文件更新:1) .github/workflows/pr-test.yml:将CI构建矩阵中的cuda-version从12.9改为13.0,并更新所有wheel artifact模式以匹配新版本。2) python/pyproject.toml:更新cuda-python依赖为>=13.0,并将torch索引从cu129改为cu130,确保包安装与CUDA 13.0兼容。3) scripts/ci/cuda/ci_download_flashinfer_jit_cache.sh:更新CU_VERSION引用从cu129到cu130,保持脚本一致性。4) scripts/ci/cuda/ci_install_deepep.sh:移除针对CUDA >12.8时丢弃sm_103的workaround,启用Blackwell架构支持,优化DeepEP构建。5) scripts/ci/cuda/ci_install_dependency.sh:更新CU_VERSION为cu130,并修复sgl-kernel wheel安装逻辑以处理+cu130后缀文件名,避免安装失败。

关键文件:

  • .github/workflows/pr-test.yml(模块 CI/Infrastructure): 核心CI工作流文件,定义构建矩阵和测试步骤,变更影响所有CI运行的CUDA版本和artifact模式。
  • python/pyproject.toml(模块 Dependencies): Python项目依赖配置,更新cuda-python和torch索引,直接影响包安装和版本兼容性。
  • scripts/ci/cuda/ci_install_dependency.sh(模块 CI/Infrastructure): CI依赖安装脚本,更新CU_VERSION和修复sgl-kernel wheel安装逻辑,关键于避免构建失败。
  • scripts/ci/cuda/ci_install_deepep.sh(模块 CI/Infrastructure): DeepEP构建脚本,移除workaround并启用sm_103支持,优化Blackwell架构兼容性。

关键符号:未识别

评论区精华

Review中没有具体评论,但提交历史显示基于reviewer请求移除了Dockerfile变更(提交消息:'Per reviewer request — test CI/script changes first before updating Docker images.')。这表明review过程中采取了谨慎的测试策略,先验证CI脚本变更再更新Docker镜像,以减少风险。

  • 测试策略优化与Dockerfile变更移除 (design): 移除了Dockerfile变更,专注于验证CI脚本升级,确保稳定性后再考虑镜像更新。

风险与影响

  • 风险:风险包括:1) 兼容性问题:CUDA 13.0可能不兼容某些现有sgl-kernel或依赖,如torchaudio版本冲突(在ci_install_dependency.sh中提及)。2) CI构建失败:版本变更可能导致构建错误或测试失败,特别是sgl-kernel wheel安装逻辑修改(ci_install_dependency.sh)若文件名模式不匹配会失败。3) 依赖冲突:更新torch索引和cuda-python可能影响其他包安装,需确保所有环境一致。
  • 影响:影响范围:1) CI环境:所有使用默认CUDA版本的CI runner将切换到13.0,影响构建和测试流程,可能提升性能或引入新特性支持。2) 开发者:需要确保本地开发环境与CI一致,可能需升级CUDA工具链以避免差异。3) 系统:sgl-kernel构建将基于CUDA 13.0,可能优化Blackwell架构兼容性,但需验证内核稳定性。影响程度中等,主要局限于基础设施和测试流程。
  • 风险标记:依赖版本升级, CI构建失败风险, 兼容性风险

关联脉络

  • PR #22727 Revert "Upgrade CI default CUDA version from 12.9 to 13.0": 此前尝试升级CUDA 13.0但遇到内核测试问题被回滚,本PR是重新尝试并修复了相关脚本问题。

参与讨论