Prhub

#25113 docker, ci: swap GB DeepEP source from fzyzcjy fork to deepseek-ai/DeepEP@hybrid-ep

原始 PR 作者 ch-wan 合并时间 2026-05-14 04:25 文件变更 2 提交数 2 评论 7 代码增减 +6 / -7

执行摘要

GB DeepEP 源码从个人 fork 切换到上游 hybrid-ep

将 GB300 暂存镜像的 DeepEP 依赖从个人 fork 迁移到 DeepSeek 官方维护的 hybrid-ep 分支,确保后续更新由上游维护团队负责,降低维护风险。

建议合并:变更透明、经过验证,且将维护责任转移到上游官方代码库,是基础设施的健康演进。

讨论亮点

fork 作者 fzyzcjy 确认 hybrid-ep 已包含其全部改动,表示 LGTM;ishandhanani 要求运行 SA 提交验证,作者 ch-wan 回复已验证无回归。

实现拆解

  1. 修改 Dockerfiledocker/Dockerfile):将 GRACE_BLACKWELL_DEEPEP_BRANCH 默认值从 gb200_blog_part_2 改为 hybrid-ep;克隆 URL 从 https://github.com/fzyzcjy/DeepEP.git 改为 https://github.com/deepseek-ai/DeepEP.git,并在克隆时使用 -b ${GRACE_BLACKWELL_DEEPEP_BRANCH} 指定分支;删除单独的 git checkout ${GRACE_BLACKWELL_DEEPEP_BRANCH} 步骤,改用固定 commit d28bd676c2120573c9f1425f0c16c39faa4117e6 保证可复现性。
  2. 修改 CI 安装脚本scripts/ci/cuda/ci_install_deepep.sh):与 Dockerfile 做相同的分支和 URL 变更,防止 CI 在测试时回退到旧 fork。
  3. 验证兼容性:确认 hybrid-ep 已包含原 fork 的全部功能,且编译依赖(如 libibverbs-dev)和 CUDA 架构设置不变。
文件 模块 状态 重要度
docker/Dockerfile Docker modified 3.88
scripts/ci/cuda/ci_install_deepep.sh CI 脚本 modified 4.09

关键源码片段

docker/Dockerfile infrastructure

GB 构建阶段的核心 Dockerfile,修改了 DeepEP 克隆源和分支 /commit 固定逻辑。

# docker/Dockerfile ( 关键片段 )
ARG GRACE_BLACKWELL_DEEPEP_BRANCH=hybrid-ep # 默认分支从 gb200_blog_part_2 改为 hybrid-ep
​
# 克隆 DeepEP 时使用 -b 指定分支,并 checkout 固定 commit 以确保可复现性
RUN set -eux; \
    if [ "$GRACE_BLACKWELL" = "1" ]; then \
        git clone https://github.com/deepseek-ai/DeepEP.git -b ${GRACE_BLACKWELL_DEEPEP_BRANCH} && \
        cd DeepEP && \
        git checkout d28bd676c2120573c9f1425f0c16c39faa4117e6 && \
        sed -i 's/#define NUM_CPU_TIMEOUT_SECS 100/#define NUM_CPU_TIMEOUT_SECS 1000/' csrc/kernels/configs.cuh && \
        sed -i 's/#define NUM_TIMEOUT_CYCLES 200000000000ull/#define NUM_TIMEOUT_CYCLES 2000000000000ull/' csrc/kernels/configs.cuh && \
        cd .. ; \
    fi

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:仅修改 GB 特定路径,非 GB 路径完全不受影响;CI 中 GB 作业会直接验证新分支的构建和功能;但若上游 hybrid-ep 分支引入回归,GB 镜像将受影响,不过固定 commit 避免了未预期的变动。

影响范围仅限于 Grace Blackwell 镜像的用户和 GB CI 作业;性能测试显示吞吐量和延迟无显著变化(±2% 以内),内存占用完全一致,属于干净替换。

依赖上游仓库变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论