Prhub

#38088 [ROCm][CI] Increase OpenAPI schema test timeouts

vllm-project/vllm · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:06

分析状态 已生成
文件变更 1提交数 1 · 评论 0
代码增减 +5 / -2
rocm test ci

执行摘要

在 ROCm 平台上将 OpenAPI 模式测试超时增加三倍。

根据 PR body,AMD CI nightly runs 中的 test_openapi_stateless schemathesis test 因多个端点达到默认 10 秒超时而失败,甚至 60 秒超时的端点在 ROCm 上由于基础设施缓慢也失败。需要调整超时设置以应对此问题。

此 PR 逻辑简单,适用于快速了解 ROCm 测试调整;无需深度阅读,但可关注平台特定超时设置模式,作为处理异构基础设施的参考。

讨论亮点

review 中无实质性讨论;gemini-code-assist[bot] 评论仅描述变更,DarkLight1337 直接批准,未引发任何争议或设计权衡。

实现拆解

实现方案涉及修改 tests/entrypoints/openai/test_openai_schema.py 文件。关键改动包括:引入 _ROCM_TIMEOUT_MULTIPLIER = 3 if current_platform.is_rocm() else 1,然后将此乘数应用于 DEFAULT_TIMEOUT_SECONDSLONG_TIMEOUT_SECONDS 常量,从而动态调整 ROCm 平台的超时值。

文件 模块 状态 重要度
tests/entrypoints/openai/test_openai_schema.py entrypoints/openai test modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:增加超时可能掩盖实际性能回归问题,但由于针对基础设施缓慢而调整,风险可控。变更仅限于测试逻辑,不直接影响生产代码,但若未来 ROCm 性能改善,超时设置可能需要调整。

影响范围小:仅影响 ROCm 平台的 CI 测试超时设置,对用户和系统功能无直接影响。可能减少 CI 失败率,提升团队开发效率,但需注意依赖平台特定超时设置。

测试超时调整可能掩盖性能回归 平台依赖超时设置

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此 PR 在 ROCm 平台上将 OpenAPI 模式测试的超时时间增加三倍,以应对 AMD CI nightly runs 中的超时失败问题,提升测试稳定性,影响范围仅限于 ROCm CI 测试。

功能与动机

动机源于 AMD CI nightly runs 中 test_openapi_stateless schemathesis test 频繁超时,如 PR body 所述:“Multiple endpoints hit the 10s default timeout, and even endpoints with the 60s timeout fail on ROCm due to infra sluggishness。” 这导致 ROCm 测试不稳定,需要调整超时设置来适应基础设施缓慢。

实现拆解

实现仅修改 tests/entrypoints/openai/test_openai_schema.py 文件,关键变更如下:

  • 引入平台判断变量:_ROCM_TIMEOUT_MULTIPLIER = 3 if current_platform.is_rocm() else 1
  • 调整超时常数:
    • DEFAULT_TIMEOUT_SECONDS 从 10 秒改为 10 * _ROCM_TIMEOUT_MULTIPLIER
    • LONG_TIMEOUT_SECONDS 从 60 秒改为 60 * _ROCM_TIMEOUT_MULTIPLIER

这样,在 ROCm 平台上,超时分别提升至 30 秒和 180 秒,其他平台保持不变。

评论区精华

review 中无有价值讨论;gemini-code-assist[bot] 评论仅描述变更,DarkLight1337 直接批准,未引发任何技术交锋或争议。

风险与影响

  • 风险:增加超时可能掩盖实际性能回归,需监控 ROCm 平台性能变化;变更局限于测试,但平台依赖超时设置可能在未来基础设施改善后需调整。
  • 影响:对用户和系统功能无直接影响;可能减少 CI 失败率,提升团队开发效率,尤其针对 ROCm 测试流水线。

关联脉络

从历史 PR 看,ROCm 平台是活跃开发领域,多个 PR 如 #37483、#36702、#37640、#37787、#37924 均涉及 ROCm 测试、性能或 bugfix,显示持续优化跨模块的 ROCm 支持。本 PR 是这一脉络的一部分,专注于测试超时调整,与其他 ROCm 相关 PR 共同推动 ROCm 生态稳定性。

参与讨论