# PR #21619 完整报告

- 仓库：`sgl-project/sglang`
- 标题：Add skip condition for flaky elastic EP test
- 合并时间：2026-03-29 12:50
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/21619

---

## 执行摘要
此 PR 在 CI 环境中跳过了不稳定的弹性 EP 测试（TestPureDP），以避免测试 flakiness 导致的 CI 失败。变更简单直接，但需要后续跟踪和修复根本问题，属于维护性测试优化。

## 功能与动机
动机是解决在 CI 中 mooncake-ep fault-tolerant 测试的不稳定性问题。PR body 中提到两个案例：elastic EP 测试结果不正确和进程终止导致服务器崩溃（链接到 PR 19089 的 CI 运行）。为了稳定 CI 流程，决定跳过该测试，而不是立即修复，以减少频繁的测试失败干扰。

## 实现拆解
实现仅在文件 `test/registered/ep/test_mooncake_ep_small.py` 中添加了一行代码：

```python
@unittest.skipIf(is_in_ci(), "Skip since mooncake-ep fault-tolerant test is flaky.")
```

这行代码在 CI 环境中装饰 TestPureDP 测试类，使其被跳过。无其他改动，模块属于测试套件中的弹性 EP 部分。

## 评论区精华
review 中，gemini-code-assist[bot] 提出建议：

> "To ensure this flaky test is not forgotten, it is good practice to create a GitHub issue to track the investigation and fix for the flakiness. Please add a reference to the issue in the skip message."

但 PR 被合并时未采纳此建议，因此 flakiness 问题仍需后续关注，无其他争议或深度讨论。

## 风险与影响
风险：
- 跳过测试可能导致潜在的 bug 被忽略，因为没有修复根本原因，具体到 TestPureDP 类可能掩盖弹性 EP 相关缺陷。
- 测试覆盖减少，影响代码质量，增加回归风险。
- 如果 flakiness 不被跟踪，问题可能长期存在，导致技术债务累积。

影响：
- 对用户无直接影响，因为只是测试变更。
- 对开发团队，CI 流程会更稳定，减少因 flaky 测试导致的失败，提升开发效率。
- 需要确保问题被记录和修复，以避免长期影响代码可靠性。

## 关联脉络
此 PR 与 PR 19089 相关，因为动机中引用了 PR 19089 的 CI 运行链接，显示在添加 skip-softmax attention 功能后测试出现了不稳定性。这表明在新功能集成中，测试 flakiness 可能成为 CI 瓶颈。与近期历史 PR 如 21482（跳过 .md 文件测试）和 21608（修复 CI lint）类似，都属于优化 CI 流程的维护性变更，反映了团队在提升测试稳定性和效率上的持续努力。