Prhub

#22727 Revert "Upgrade CI default CUDA version from 12.9 to 13.0"

sgl-project/sglang · 作者 Fridge003 · 合并时间 2026-04-14 05:39

分析状态 已生成
文件变更 5提交数 1 · 评论 2
代码增减 +33 / -33
dependencies run-ci

执行摘要

回滚 CUDA 13.0 升级,恢复 CI 默认 CUDA 版本为 12.9 以解决内核测试问题。

在关联Issue #21441的评论中,作者Fridge003指出'There are some kernel tests yet to be fixed',表明升级到CUDA 13.0后存在未修复的内核测试问题,因此决定回滚以维持CI流水线的稳定性。

该PR值得基础设施团队精读,关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。

讨论亮点

无review评论或直接讨论。决策基于Issue #21441中Fridge003的评论,指出内核测试未修复,因此执行回滚。

实现拆解

实现方案是回滚PR #21441的所有变更,将CUDA版本从13.0恢复为12.9。关键改动点包括:1. CI工作流文件(.github/workflows/pr-test.yml)中,将构建矩阵的cuda-version从13.0改为12.9,并注释掉13.0的配置;2. Python依赖配置文件(python/pyproject.toml)中,将cuda-python依赖从>=13.0降级为==12.9,并将Torch索引从cu130改回cu129;3. CI脚本(如ci_install_dependency.sh、ci_download_flashinfer_jit_cache.sh)中,将CU_VERSION变量从cu130改回cu129;4. ci_install_deepep.sh中,调整了Blackwell架构的编译配置,以应对CI环境报告错误CUDA版本的问题。

文件 模块 状态 重要度
.github/workflows/pr-test.yml infra modified 7.0
python/pyproject.toml dependencies modified 6.0
scripts/ci/cuda/ci_install_dependency.sh infra modified 6.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

内核测试失败导致回滚决策 测试

Fridge003 在 Issue #21441 中评论 'There are some kernel tests yet to be fixed',指出升级到 CUDA 13.0 后内核测试未修复。

结论:基于测试问题,决定回滚 CUDA 版本以恢复 CI 稳定性。 · 已解决

风险与影响

风险包括:1. 回滚可能暂时掩盖CUDA 13.0兼容性问题,长期仍需解决;2. 依赖版本降级可能导致与其他新特性的冲突,例如Torch 2.11默认使用CUDA 13.0;3. 环境配置不一致风险,如ci_install_deepep.sh中提到的CI机器错误报告CUDA版本,可能导致编译错误;4. 缺少测试覆盖,回滚后未添加额外测试验证稳定性。

影响范围主要限于CI构建和测试环境,对最终用户透明。影响程度中等:确保CI流水线稳定运行,避免测试失败阻塞开发;但延迟了CUDA版本升级,可能影响新硬件(如Blackwell)支持和性能优化。

测试失败 环境配置不一致 依赖版本回滚

关联 Issue

#21441 Upgrade CI default CUDA version from 12.9 to 13.0

完整报告

执行摘要

本次PR回滚了CUDA 13.0升级,将CI默认CUDA版本恢复为12.9,以解决内核测试失败问题。改动涉及多个CI配置文件和脚本,确保构建环境稳定,但延迟了与Torch 2.11的CUDA版本匹配。基础设施团队应关注此变更,以规避未来升级的类似障碍。

功能与动机

回滚决策基于关联Issue #21441中作者Fridge003的评论:"There are some kernel tests yet to be fixed"。这表明升级到CUDA 13.0后,内核测试出现未修复的问题,影响了CI流水线的稳定性。因此,通过回滚来临时解决测试障碍,维持开发效率。

实现拆解

实现通过修改5个文件,将CUDA版本从13.0降级回12.9:

文件路径 关键变更 影响
.github/workflows/pr-test.yml 将构建矩阵中的cuda-version从"13.0"改为"12.9",并注释掉13.0配置 直接影响所有CI测试任务的CUDA环境
python/pyproject.toml cuda-python依赖从>=13.0改为==12.9,Torch索引从cu130改回cu129 调整Python包管理,确保依赖兼容性
scripts/ci/cuda/ci_install_dependency.sh CU_VERSION变量从cu130改回cu129,简化sgl-kernel wheel安装逻辑 核心安装脚本,控制构建流程的CUDA版本
scripts/ci/cuda/ci_install_deepep.sh 修改Blackwell架构编译配置,因CI环境错误报告CUDA版本 避免因环境配置问题导致的编译错误
scripts/ci/cuda/ci_download_flashinfer_jit_cache.sh CU_VERSIONcu130改回cu129 次要脚本更新,保持一致性

评论区精华

无review讨论。关键决策线索来自Issue #21441的评论:

Fridge003: "There are some kernel tests yet to be fixed"

这直接导致了回滚操作,强调测试稳定性在CI升级中的优先级。

风险与影响

  • 技术风险:回滚可能掩盖CUDA 13.0的兼容性问题,长期需重新处理;环境配置不一致(如ci_install_deepep.sh中所述)可能引发编译错误;依赖降级可能与新特性冲突。
  • 影响分析:主要影响CI构建和测试环境,确保开发流水线稳定;对用户无直接影响,但延迟CUDA升级可能限制新硬件支持和性能优化。

关联脉络

  • 本PR直接回滚了PR #21441,后者旨在升级CUDA版本以匹配Torch 2.11。
  • 从近期历史PR看,类似基础设施变更(如PR 22657、22653)常涉及依赖和CI调整,表明团队在管理多硬件环境时面临复杂性。
  • 未来可能需要重新评估CUDA 13.0升级,并加强测试覆盖以避免类似回滚。

参与讨论