Prhub

#22309 Use dedicated runner label for deepep 8-GPU tests

原始 PR 作者 alisonshao 合并时间 2026-04-08 10:58 文件变更 1 提交数 1 评论 1 代码增减 +1 / -1

执行摘要

为 DeepEP 8-GPU 测试指定专用 runner 标签,隔离 RDMA 故障机器。

DeepEP测试依赖RDMA/nvshmem进行GPU间通信,但Ion H200机器存在RDMA端口故障(PORT_DOWN状态),导致ibv_modify_qp超时和nvshmem初始化失败。PR body中提供了具体故障案例链接(如ion-4和ion-3的失败日志),并指出根本原因是RDMA端口状态异常。

该PR变更简单,无需深入代码审查,但可作为CI环境隔离的参考案例。关注点:专用runner标签的维护策略和RDMA故障的根因缓解。

讨论亮点

Review中仅有一人批准且无评论,表明变更简单直接,团队对解决方案无争议。PR body中已详细说明故障根因和修复方案,无需额外讨论。

实现拆解

仅修改一个CI配置文件:将.github/workflows/pr-test.ymlstage-c-test-deepep-8-gpu-h200任务的runs-on字段从8-gpu-h200改为8-gpu-h200-deepep

文件 模块 状态 重要度
.github/workflows/pr-test.yml CI/Workflow modified 3.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

无实质性讨论 other

Review 中仅有一人批准且无评论,表明变更被快速接受。

结论:变更被批准并合并。 · 已解决

风险与影响

技术风险较低:1)变更仅影响CI调度逻辑,不涉及生产代码;2)专用标签需手动添加到目标runner(如GMI H200),若标签未正确配置可能导致测试无法运行;3)如果所有可用runner都出现RDMA问题,测试可能完全阻塞。

影响范围有限:1)对用户无直接影响;2)仅影响DeepEP 8-GPU测试的CI执行环境,提升测试稳定性;3)团队需维护专用runner标签,增加少量运维开销。

依赖外部 runner 配置 可能阻塞测试执行

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:为DeepEP 8-GPU测试指定专用runner标签,隔离RDMA故障机器。
  • 推荐动作:该PR变更简单,无需深入代码审查,但可作为CI环境隔离的参考案例。关注点:专用runner标签的维护策略和RDMA故障的根因缓解。

功能与动机

DeepEP测试依赖RDMA/nvshmem进行GPU间通信,但Ion H200机器存在RDMA端口故障(PORT_DOWN状态),导致ibv_modify_qp超时和nvshmem初始化失败。PR body中提供了具体故障案例链接(如ion-4和ion-3的失败日志),并指出根本原因是RDMA端口状态异常。

实现拆解

仅修改一个CI配置文件:将.github/workflows/pr-test.ymlstage-c-test-deepep-8-gpu-h200任务的runs-on字段从8-gpu-h200改为8-gpu-h200-deepep

关键文件:

  • .github/workflows/pr-test.yml(模块 CI/Workflow): 唯一修改的文件,定义了CI工作流中DeepEP 8-GPU测试的runner标签,直接影响测试执行环境。

关键符号:未识别

评论区精华

Review中仅有一人批准且无评论,表明变更简单直接,团队对解决方案无争议。PR body中已详细说明故障根因和修复方案,无需额外讨论。

  • 无实质性讨论 (other): 变更被批准并合并。

风险与影响

  • 风险:技术风险较低:1)变更仅影响CI调度逻辑,不涉及生产代码;2)专用标签需手动添加到目标runner(如GMI H200),若标签未正确配置可能导致测试无法运行;3)如果所有可用runner都出现RDMA问题,测试可能完全阻塞。
  • 影响:影响范围有限:1)对用户无直接影响;2)仅影响DeepEP 8-GPU测试的CI执行环境,提升测试稳定性;3)团队需维护专用runner标签,增加少量运维开销。
  • 风险标记:依赖外部runner配置, 可能阻塞测试执行

关联脉络

  • PR #22297 Revert "[CI] Update nightly test models for H200/B200 (#22288)": 同样涉及H200/B200测试环境调整,关注CI稳定性和资源配置。
  • PR #22288 [CI] Update nightly test models for H200/B200: 涉及H200/B200测试模型更新,与本PR同属H200测试环境优化系列。
  • PR #22301 Only upload CUDA coredumps on test failure: 同为CI优化PR,聚焦测试资源管理和效率提升。

参与讨论