#38566 [Bugfix][CI] Skip flaky `test_eagle` test

原始 PR 作者 NickLucche 合并时间 2026-03-31 21:42 文件变更 1 提交数 2 评论 5 代码增减 +8 / -1

执行摘要

通过标记测试为预期失败来跳过不稳定的 Eagle DP 测试以避免 CI 失败。

根据PR body，动机是修复issue #31913中报告的flaky测试。作者NickLucche提到这是试探性修复，并讨论禁用async with DP>1可能太严厉，但希望获取更多上下文确认。

对于技术管理者，此PR是临时措施，建议关注后续解决根本原因的PR。对于工程师，如果负责Eagle或speculative decoding相关模块，值得注意此测试被跳过，以避免依赖不稳定的测试，并可参考discussion中的设计权衡。

讨论亮点

Review评论中，gemini-code-assist[bot]建议在gpu_model_runner.py中添加注释和TODO来解释为什么异步speculative decoding被禁用当data_parallel_size > 1，以提高代码清晰度并跟踪未来工作。Issue评论中，MatthewBonanni表示禁用async spec decode for DP > 1可能不是正确做法，因为测试之前已知flaky，问题可能源于batch invariance。NickLucche回复说batch invariance未帮助，且可复现于单个请求。讨论未达成一致结论，但PR作为临时修复被批准。

实现拆解

实现很简单，只涉及一个文件变更：在tests/v1/distributed/test_eagle_dp.py中，添加了一个新的@pytest.mark.xfail装饰器，条件是not current_platform.is_rocm()，原因字符串解释问题并链接到issue。同时，调整了现有的xfail装饰器以更新ROCm相关原因。此外，从review评论看，在vllm/v1/worker/gpu_model_runner.py中可能有相关变更添加条件禁用异步speculative decoding当data_parallel_size > 1，但文件列表中未包含此变更，上下文不足。

文件	模块	状态	重要度
`tests/v1/distributed/test_eagle_dp.py`	tests	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

是否应禁用异步 speculative decoding 当 data_parallel_size > 1 设计

MatthewBonanni 在 issue 评论中表示这可能不是正确做法，因为测试 flaky 可能源于 batch invariance，而 NickLucche 回复 batch invariance 未帮助且可复现于单个请求。讨论涉及设计权衡，是否应临时禁用或寻找其他解决方案。

结论：未达成一致结论，但 PR 作为临时修复合并，跳过测试以稳定 CI。 · unresolved

添加注释和 TODO 以提高代码清晰度 documentation

gemini-code-assist[bot] 在 review 评论中建议在 `gpu_model_runner.py` 中添加注释和 TODO 来解释为什么异步 speculative decoding 被禁用当 data_parallel_size > 1，以防止未来回归。

结论：建议被提出，但未在文件列表中实现，PR 只修改了测试文件。 · 已解决

风险与影响

主要技术风险包括：

跳过测试可能掩盖EAGLE + DP > 1与异步spec decode组合时的根本问题，导致潜在回归未被发现。
未解决issue #31913中的root cause，可能影响系统正确性和功能稳定性。具体到文件，测试文件被标记为xfail，但底层逻辑问题仍存在。

影响范围限于CI测试流程：跳过flaky测试可以提升CI的稳定性，减少失败信号干扰。对用户功能无直接影响，因为这是测试代码变更。但对团队开发有影响：未修复根本问题可能延迟相关功能（如Eagle和speculative decoding）的开发和测试，需关注后续修复。

跳过测试掩盖问题未解决根本原因

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR通过将测试test_eagle标记为预期失败来临时修复CI中的flaky问题，针对EAGLE + DP > 1与异步spec decode组合的错误输出问题，但未解决根本原因，旨在稳定CI流程。

功能与动机

动机源于issue #31913报告的flaky测试，作者尝试避免CI失败干扰开发。PR body中提到这是试探性修复，并讨论禁用async with DP>1可能太严厉，但希望获取更多上下文确认是否需要此限制。

实现拆解

实现集中在单个文件tests/v1/distributed/test_eagle_dp.py中：

添加新的@pytest.mark.xfail装饰器，条件为not current_platform.is_rocm()，原因字符串说明EAGLE + DP > 1产生错误输出且root cause在调查中。

更新现有ROCm相关xfail装饰器的原因字符串。
代码变更示例：

@pytest.mark.xfail(
    not current_platform.is_rocm(),
    reason="EAGLE + DP > 1 produces wrong outputs when async spec decode "
           "correction is active. Root cause under investigation. "
           "See: https://github.com/vllm-project/vllm/issues/31913",
    strict=False,
)

评论区精华

review讨论中突出两点：

设计权衡：MatthewBonanni在issue评论中表示禁用async spec decode for DP > 1可能不正确，因为测试flaky可能源于batch invariance。> MatthewBonanni: "Like you mention, I don't think disabling async spec decode for DP > 1 is the right move..."
文档建议：gemini-code-assist[bot]建议在gpu_model_runner.py中添加注释和TODO以记录限制并跟踪未来工作，但此建议未在本PR中实施。

风险与影响

风险：跳过测试可能掩盖底层逻辑问题（如EAGLE与异步spec decode的组合bug），导致未发现的回归；未解决root cause可能影响系统正确性。
影响：短期提升CI稳定性，减少false失败信号；长期需关注根本修复，否则可能延迟相关功能开发和测试。

关联脉络

与此PR紧密相关的是PR #38584，它同样处理Eagle DP测试的flaky行为，通过禁用AOT调度来修复，表明该测试区域存在持续问题。结合近期历史PR，vLLM项目在v1模块和speculative decoding功能上有较多测试和修复工作，此PR是临时措施，可能为后续根本性修复铺路。

#38566 [Bugfix][CI] Skip flaky `test_eagle` test

执行摘要

通过标记测试为预期失败来跳过不稳定的 Eagle DP 测试以避免 CI 失败。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论