Prhub

#37947 [XPU] Upgrade torch 2.11 for xpu

原始 PR 作者 jikunshang 合并时间 2026-04-23 23:07 文件变更 4 提交数 4 评论 2 代码增减 +29 / -29

执行摘要

XPU 平台 PyTorch 升级至 2.11,triton-xpu 升级至 3.7.0

XPU 平台需要跟随 PyTorch 和 triton-xpu 的最新版本,以获取新特性、性能优化和 bug 修复。PR body 未详细说明动机,但标题和内容明确为版本升级。

建议关注 nightly triton-xpu 的稳定性,并考虑后续在非 nightly 版本发布后切换回稳定版本。可参考 review 建议的 vendoring 策略以提高构建可重现性。PR 本身作为依赖升级,值得 XPU 相关维护者精读。

讨论亮点

review 中 gemini-code-assist[bot] 提出对 triton-xpu==3.7.0+git33f782ef 使用 nightly 构建的担忧:"This change introduces a dependency on a nightly build of triton-xpu. Nightly builds can be unstable and are not guaranteed to be permanently available, which creates a risk for build reproducibility." 建议将 wheel 文件 vendored 以增强构建稳健性。该意见未被采纳,后续两位 reviewer 直接批准了 PR。

实现拆解

  1. 更新核心依赖版本:在 requirements/xpu.txt 中将 torch2.10.0+xpu 改为 2.11.0+xpu
  2. 升级 Docker 构建环境docker/Dockerfile.xpu 中更新 oneCCL 安装器版本到 2021.15.9.14,并将 triton-xpu3.6.0 升级到 3.7.0+git33f782ef(nightly)。
  3. 同步测试依赖requirements/test/xpu.txt 中批量更新了 Intel 运行时库(如 dpcpp-cpp-rtintel-sycl-rtmkl 等)以及 torchtriton-xpu 的版本。
  4. 更新文档docs/getting_started/installation/gpu.xpu.inc.md 中将 torch 版本从 2.10 更新为 2.11,并对应更新 triton-xpu 版本为 3.7.0。
文件 模块 状态 重要度
docker/Dockerfile.xpu Docker modified 3.73
requirements/test/xpu.txt 测试依赖 modified 2.85
requirements/xpu.txt 依赖管理 modified 2.29
docs/getting_started/installation/gpu.xpu.inc.md 文档 modified 1.32

关键源码片段

docker/Dockerfile.xpu infrastructure

Docker 构建环境的核心文件,升级了 oneCCL 和 triton-xpu,且 triton-xpu 使用 nightly 版本,是风险集中点。

# 升级 oneCCL 到 2021.15.9 以支持 BMG(oneAPI 2025.3)
ARG ONECCL_INSTALLER="intel-oneccl-2021.15.9.14_offline.sh"
RUN wget "https://github.com/uxlfoundation/oneCCL/releases/download/2021.15.9/${ONECCL_INSTALLER}" && \
    bash "${ONECCL_INSTALLER}" -a --silent --eula accept && \
    rm "${ONECCL_INSTALLER}" && \
    echo "source /opt/intel/oneapi/setvars.sh --force" >> /root/.bashrc
​
# 升级 triton-xpu 至 3.7.0(nightly),注意依赖稳定性
RUN --mount=type=cache,target=/root/.cache/uv \
    uv pip uninstall triton triton-xpu && \
    uv pip install triton-xpu==3.7.0+git33f782ef --index-url https://download.pytorch.org/whl/nightly/xpu

评论区精华

使用 nightly triton-xpu 的稳定性风险 other

gemini-code-assist[bot] 指出 nightly 构建可能不稳定且无法保证永久可用,建议 vendoring 以提高构建可重现性。

结论:该意见未被采纳,PR 被批准合并。 · 已解决

风险与影响

主要风险来自 triton-xpu 使用 nightly 版本(3.7.0+git33f782ef),可能导致构建不稳定或可重复性问题。此外,oneCCL 和 Intel 运行时库的升级可能引入新的兼容性问题,尤其是在混合 GPU 环境下。但鉴于这些库已通过官方渠道发布,风险可控。

影响范围限于 XPU 平台用户和开发者。升级后需使用新版 PyTorch 和 triton-xpu,可能要求环境更新。对系统稳定性影响中等,但若 nightly 版本出现问题可能导致回归。团队需关注 CI 中 XPU 测试结果。

依赖 nightly 构建 构建可重现性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论