Prhub

#37723 [ROCm][CI] Stabilize ROCm speech-to-text translation test with lower min acc threshold

vllm-project/vllm · 作者 AndreasKaratzas · 合并时间 2026-03-22 17:32

分析状态 已生成
文件变更 1提交数 2 · 评论 4
代码增减 +1 / -1
rocm test

执行摘要

降低语音转文本翻译测试的准确度阈值以稳定 ROCm CI。

根据PR body,动机是跟进#34839,减少最小接受准确度阈值,以便测试组在MI355上通过。具体失败链接为:https://buildkite.com/vllm/amd-ci/builds/6721/steps/canvas?sid=019d09d4-711d-4fbe-9f40-6ec17a28f286&tab=output,旨在稳定CI。

对于技术管理者,此PR无需精读,变更简单。但值得关注测试阈值的设置策略,以避免类似临时调整。工程师可快速浏览以了解CI稳定措施。

讨论亮点

主要讨论点是PR标题的准确性。reviewer DarkLight1337指出标题误导,因为实际更改是降低阈值而非添加ROCM_EXTRA_ARGS。作者AndreasKaratzas回应称最初考虑添加参数,但看到评论认为波动是预期的,并计划未来重构测试。结论是更改被接受,但标题未更新。

实现拆解

实现非常简单,只修改了一个文件:'tests/entrypoints/openai/speech_to_text/test_translation_validation.py'。在test_streaming_response函数中,将断言阈值从 >= len(res_stream) * 0.9 改为 >= len(res_stream) * 0.87,降低了测试的准确度要求。

文件 模块 状态 重要度
tests/entrypoints/openai/speech_to_text/test_translation_validation.py 测试 /entrypoints/openai/speech_to_text modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

test_streaming_response

评论区精华

PR 标题准确性 正确性

DarkLight1337 指出标题误导,与实际更改不符。AndreasKaratzas 解释忘记更新标题,并提及未来重构计划。

结论:标题未更新,但更改被接受。 · 已解决

风险与影响

主要风险是测试阈值降低可能导致假阳性,掩盖真实问题,例如在'speech_to_text'功能中的潜在缺陷。具体在测试文件中,降低了准确度要求,可能使有缺陷的代码通过测试。此外,这种调整可能只是临时修复,未解决根本原因。

对用户无直接影响。对系统,CI测试更稳定,减少失败干扰。对团队,提高了CI可靠性,但需注意测试质量的潜在下降。长期来看,可能需要更健壮的测试设计。

降低测试严格性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR降低了语音转文本翻译测试的准确度阈值,从0.9到0.87,以在ROCm CI的MI355硬件上稳定测试。这是一个临时修复,旨在减少CI失败,但可能掩盖潜在问题,建议关注测试质量。

功能与动机

  • 为什么做:解决在MI355上的CI测试失败,具体构建链接显示失败(https://buildkite.com/vllm/amd-ci/builds/6721/steps/canvas?sid=019d09d4-711d-4fbe-9f40-6ec17a28f286&tab=output)。
  • 跟进PR:此PR是#34839的后续措施,专注于调整测试阈值。

实现拆解

  • 改动文件:仅修改tests/entrypoints/openai/speech_to_text/test_translation_validation.py
  • 关键代码变更
    python assert ( sum([x == y for x, y in zip(res_stream, res_no_stream.text.split())]) >= len(res_stream) * 0.87 # 从0.9降低到0.87 )
  • 模块影响:测试模块中的entrypoints/openai/speech_to_text子模块。

评论区精华

  • 核心交锋:reviewer DarkLight1337指出标题误导,作者AndreasKaratzas回应并计划重构测试。

    @DarkLight1337 True, sorry, I forgot to do that, initially I thought of adding the rocm args, but then I saw the comment and thought that this flakiness is expected. Btw, I'll probably refactor this test, but I though of first stabilize the CI.

  • 结论:更改被批准,但标题未更新,突出了CI稳定性的短期优先。

风险与影响

  • 技术风险
    • 测试阈值降低可能导致假阳性,掩盖speech-to-text功能的真实缺陷。
    • 缺乏根本原因分析,依赖临时调整。
  • 影响评估
    • 用户:无直接影响。
  • 系统:CI更稳定,减少失败噪声。
  • 团队:短期提高效率,但长期需加强测试健壮性。

关联脉络

  • 关联PR:与#34839相关,后者可能涉及类似测试稳定措施,但提供的材料中未详述。
  • 演进趋势:近期历史PR显示频繁的测试和ROCm相关调整(如#36100、#36505),表明团队在优化硬件兼容性和CI稳定性。

参与讨论