Prhub

#44255 [ROCm][CI] Specifying time outs for the lm eval models

原始 PR 作者 AndreasKaratzas 合并时间 2026-06-04 22:35 文件变更 4 提交数 1 评论 0 代码增减 +19 / -4

执行摘要

为 ROCm GSM8K 测试添加可配置超时

在 ROCm CI 上,DeepSeek-V2-Lite-Instruct-FP8 和 Qwen1.5-MoE-W4A16-CT 两个模型的 GSM8K 测试因 aiohttp 客户端默认 600s 超时而导致请求被中断,返回空字符串,进而使无效回答率升高、准确率下降。PR 描述指出该问题仅在 ROCm 上复现,CUDA/H200 和本地 ROCm MI355 均正常,因此需要为 ROCm 平台增加可配置的超时时间。

该 PR 是典型的 CI 稳定性修复,代码改动简单,值得关注的设计决策是平台感知的配置回退机制(优先使用 rocm_request_timeout_seconds,否则使用 request_timeout_seconds 默认值),这种模式可复用。

讨论亮点

审核者 tjtanaa 审批通过,无额外讨论或意见。

实现拆解

  1. gsm8k_eval.py 中新增 request_timeout_seconds 参数:将 evaluate_gsm8k 函数签名增加 request_timeout_seconds: float = 600 参数,并将 aiohttp.ClientSession 的超时从硬编码的 600 改为从参数传入;同时改进 call_vllm_api 的异常日志,输出异常类名 type(e).__name__ 以便分辨超时等错误类型。
  2. test_gsm8k_correctness.py 中读取并传递超时配置:在 run_gsm8k_evaltest_gsm8k_correctness 函数中,从 eval_config 读取 request_timeout_seconds(默认 600),若当前平台为 ROCm,则优先使用 rocm_request_timeout_seconds 配置;随后将解析后的超时传递给 evaluate_gsm8k 并在日志中打印。
  3. 为两个 ROCm 敏感模型配置更长超时:在 DeepSeek-V2-Lite-Instruct-FP8.yamlQwen1.5-MoE-W4A16-CT.yaml 中分别添加 rocm_request_timeout_seconds: 1800,将超时从 600s 提升至 1800s,以适配 ROCm 环境下更慢的推理速度。
  4. 所有变更均为测试覆盖调整:无核心代码路径变更,仅修改测试脚本和 YAML 配置。
文件 模块 状态 重要度
tests/evals/gsm8k/gsm8k_eval.py 测试工具 modified 4.33
tests/evals/gsm8k/test_gsm8k_correctness.py 测试用例 modified 4.87
tests/evals/gsm8k/configs/DeepSeek-V2-Lite-Instruct-FP8.yaml 测试配置 modified 3.46
tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml 测试配置 modified 3.46

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  1. 回归风险低:仅修改测试代码和 YAML 配置,不影响 vLLM 核心推理逻辑。
  2. 平台兼容性current_platform.is_rocm() 判断仅在 ROCm 下生效,CUDA 仍保持默认 600s 超时,不会影响现有测试。
  3. 误判风险:增加的超时时间(1800s)可能隐藏真正的性能退化或死锁问题,但测试本身会输出准确率,若模型推理出现异常仍可通过准确率阈值暴露。
  1. 对用户:无影响,仅 CI 测试。
  2. 对系统:ROCm CI 上的 GSM8K 测试将更稳定,减少因超时导致的假阳性失败,提升 CI 可靠性。
  3. 对团队:维护成本低,未来若其他模型在 ROCm 上出现类似超时问题,只需在对应 YAML 配置中添加 rocm_request_timeout_seconds 即可。
仅测试变更 低风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论