执行摘要
- 一句话:为DeepEP 8-GPU测试指定专用runner标签,隔离RDMA故障机器。
- 推荐动作:该PR变更简单,无需深入代码审查,但可作为CI环境隔离的参考案例。关注点:专用runner标签的维护策略和RDMA故障的根因缓解。
功能与动机
DeepEP测试依赖RDMA/nvshmem进行GPU间通信,但Ion H200机器存在RDMA端口故障(PORT_DOWN状态),导致ibv_modify_qp超时和nvshmem初始化失败。PR body中提供了具体故障案例链接(如ion-4和ion-3的失败日志),并指出根本原因是RDMA端口状态异常。
实现拆解
仅修改一个CI配置文件:将.github/workflows/pr-test.yml中stage-c-test-deepep-8-gpu-h200任务的runs-on字段从8-gpu-h200改为8-gpu-h200-deepep。
关键文件:
.github/workflows/pr-test.yml(模块 CI/Workflow): 唯一修改的文件,定义了CI工作流中DeepEP 8-GPU测试的runner标签,直接影响测试执行环境。
关键符号:未识别
评论区精华
Review中仅有一人批准且无评论,表明变更简单直接,团队对解决方案无争议。PR body中已详细说明故障根因和修复方案,无需额外讨论。
- 无实质性讨论 (other): 变更被批准并合并。
风险与影响
- 风险:技术风险较低:1)变更仅影响CI调度逻辑,不涉及生产代码;2)专用标签需手动添加到目标runner(如GMI H200),若标签未正确配置可能导致测试无法运行;3)如果所有可用runner都出现RDMA问题,测试可能完全阻塞。
- 影响:影响范围有限:1)对用户无直接影响;2)仅影响DeepEP 8-GPU测试的CI执行环境,提升测试稳定性;3)团队需维护专用runner标签,增加少量运维开销。
- 风险标记:依赖外部runner配置, 可能阻塞测试执行
关联脉络
- PR #22297 Revert "[CI] Update nightly test models for H200/B200 (#22288)": 同样涉及H200/B200测试环境调整,关注CI稳定性和资源配置。
- PR #22288 [CI] Update nightly test models for H200/B200: 涉及H200/B200测试模型更新,与本PR同属H200测试环境优化系列。
- PR #22301 Only upload CUDA coredumps on test failure: 同为CI优化PR,聚焦测试资源管理和效率提升。
参与讨论