Prhub

#23944 [AMD] Fix CI test_diffusion_generation[flux_2_image_t2i_2_gpus]

原始 PR 作者 yichiche 合并时间 2026-04-28 23:06 文件变更 2 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

AMD CI 超时提升至 150 分钟

AMD CI 的 multimodal-gen-test-2-gpu-amd 任务因 HuggingFace Hub 下载 FLUX.1-dev 模型(约 39 个文件)时网络速度慢(约 4 分钟/文件)而频繁超时,90 分钟的步骤时间限制不足以完成下载。例如 https://github.com/sgl-project/sglang/actions/runs/25038683025 中,任务在 90 分钟超时时仍处于下载阶段。NVIDIA 等效工作流使用 240 分钟超时,而 AMD 工作流时间不足其一半。

简单直接的 CI 修复,无需精读。但值得注意:团队应评估是否需要在 AMD 工作流中增加模型缓存或预下载步骤,从根本上解决下载慢的问题,而不仅仅是扩大超时。

讨论亮点

无 review 评论。PR 由 bingxche 直接批准,无争议或讨论。

实现拆解

仅修改两个 CI 配置文件的 timeout-minutes 值:

  • .github/workflows/pr-test-amd.ymltimeout-minutes: 90timeout-minutes: 150
  • .github/workflows/pr-test-amd-rocm720.ymltimeout-minutes: 80timeout-minutes: 150
    150 分钟为合并后的统一值,为慢速下载提供足够余量,同时低于 NVIDIA 的 240 分钟限制。
文件 模块 状态 重要度
.github/workflows/pr-test-amd.yml CI 配置 modified 2.95
.github/workflows/pr-test-amd-rocm720.yml CI 配置 modified 2.95

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:仅修改 CI 超时配置,不影响任何代码逻辑、模型推理或测试行为。唯一风险是超时时间过长可能使失败任务更晚暴露,但 150 分钟仍远低于 NVIDIA 的 240 分钟,且集中在一个步骤,不延长整体流水线时间。

影响范围仅限于 AMD CI 流水线中的扩散模型测试步骤,直接消除因网络下载超时导致的假阴性失败。对其他 AMD 测试步骤、NVIDIA CI、用户端均无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论