# PR #22309 完整报告

- 仓库：`sgl-project/sglang`
- 标题：Use dedicated runner label for deepep 8-GPU tests
- 合并时间：2026-04-08 10:58
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/22309

---

# 执行摘要

- 一句话：为 DeepEP 8-GPU 测试指定专用 runner 标签，隔离 RDMA 故障机器。
- 推荐动作：该 PR 变更简单，无需深入代码审查，但可作为 CI 环境隔离的参考案例。关注点：专用 runner 标签的维护策略和 RDMA 故障的根因缓解。

# 功能与动机

DeepEP 测试依赖 RDMA/nvshmem 进行 GPU 间通信，但 Ion H200 机器存在 RDMA 端口故障（PORT_DOWN 状态），导致 `ibv_modify_qp` 超时和 nvshmem 初始化失败。PR body 中提供了具体故障案例链接（如 ion-4 和 ion-3 的失败日志），并指出根本原因是 RDMA 端口状态异常。

# 实现拆解

仅修改一个 CI 配置文件：将 `.github/workflows/pr-test.yml` 中 `stage-c-test-deepep-8-gpu-h200` 任务的 `runs-on` 字段从 `8-gpu-h200` 改为 `8-gpu-h200-deepep`。

关键文件：
- `.github/workflows/pr-test.yml`（模块 CI/Workflow）: 唯一修改的文件，定义了 CI 工作流中 DeepEP 8-GPU 测试的 runner 标签，直接影响测试执行环境。

关键符号：未识别


# 评论区精华

Review 中仅有一人批准且无评论，表明变更简单直接，团队对解决方案无争议。PR body 中已详细说明故障根因和修复方案，无需额外讨论。

- 无实质性讨论 (other): 变更被批准并合并。

# 风险与影响

- 风险：技术风险较低：1）变更仅影响 CI 调度逻辑，不涉及生产代码；2）专用标签需手动添加到目标 runner（如 GMI H200），若标签未正确配置可能导致测试无法运行；3）如果所有可用 runner 都出现 RDMA 问题，测试可能完全阻塞。
- 影响：影响范围有限：1）对用户无直接影响；2）仅影响 DeepEP 8-GPU 测试的 CI 执行环境，提升测试稳定性；3）团队需维护专用 runner 标签，增加少量运维开销。
- 风险标记：依赖外部 runner 配置 , 可能阻塞测试执行

# 关联脉络

- PR #22297 Revert "[CI] Update nightly test models for H200/B200 (#22288)": 同样涉及 H200/B200 测试环境调整，关注 CI 稳定性和资源配置。
- PR #22288 [CI] Update nightly test models for H200/B200: 涉及 H200/B200 测试模型更新，与本 PR 同属 H200 测试环境优化系列。
- PR #22301 Only upload CUDA coredumps on test failure: 同为 CI 优化 PR，聚焦测试资源管理和效率提升。