执行摘要
统一 CUDA 版本至 13.0.2 以对齐 PyTorch 2.11.0
PR描述指出,PyTorch 2.11.0(当前在requirements/cuda.txt中锁定)是基于CUDA 13.0.2构建的。vllm的Dockerfile、Buildkite发布流水线和GB300文档之间存在版本漂移(分别为13.0.0、13.0.1和13.0.1),需要对齐至13.0.2以保持一致性和可靠性。
该PR值得合并,因为它统一了版本漂移,提高了构建系统的一致性。建议阅读者关注以下细节:
- 在review中关于架构列表
12.1的讨论,理解了vllm对不同硬件架构的支持策略(GH10仅arm64)。 - cuBLAS版本的说明,了解当前CUDA 13.0.2附带的cuBLAS版本及其与最新版本的差异。
此PR是构建系统维护的良好实践,不涉及功能逻辑,适合快速合并。
Review核心讨论:
- gemini-code-assist[bot] 指出:在
.buildkite/release-pipeline.yaml中,aarch64 CUDA 13.0 wheel构建的torch_cuda_arch_list缺少架构12.1,而后续的release image构建包含了12.1,建议同步以保持一致的硬件支持。 - 作者(dmitry-tokarev-nv)回应:已修复aarch64的arch list(补上
12.1)。对于x86_64的release image构建,指出架构12.1仅用于GH10芯片,而该芯片没有x86_64(AMD64)变体,因此无需在x86_64的arch list中添加。该解释被接受,讨论解决。 - Harry-Chen 评论:建议在#39878合并后rebase,作者随后将PR范围缩小为仅CUDA版本升级,架构部分由#39878处理。
参与讨论