#23944 [AMD] Fix CI test_diffusion_generation[flux_2_image_t2i_2_gpus]

原始 PR 作者 yichiche 合并时间 2026-04-28 23:06 文件变更 2 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

AMD CI 超时提升至 150 分钟

AMD CI 的 multimodal-gen-test-2-gpu-amd 任务因 HuggingFace Hub 下载 FLUX.1-dev 模型（约 39 个文件）时网络速度慢（约 4 分钟/文件）而频繁超时，90 分钟的步骤时间限制不足以完成下载。例如 https://github.com/sgl-project/sglang/actions/runs/25038683025 中，任务在 90 分钟超时时仍处于下载阶段。NVIDIA 等效工作流使用 240 分钟超时，而 AMD 工作流时间不足其一半。

简单直接的 CI 修复，无需精读。但值得注意：团队应评估是否需要在 AMD 工作流中增加模型缓存或预下载步骤，从根本上解决下载慢的问题，而不仅仅是扩大超时。

讨论亮点

无 review 评论。PR 由 bingxche 直接批准，无争议或讨论。

实现拆解

仅修改两个 CI 配置文件的 timeout-minutes 值：

.github/workflows/pr-test-amd.yml 中 timeout-minutes: 90 → timeout-minutes: 150
.github/workflows/pr-test-amd-rocm720.yml 中 timeout-minutes: 80 → timeout-minutes: 150
150 分钟为合并后的统一值，为慢速下载提供足够余量，同时低于 NVIDIA 的 240 分钟限制。

文件	模块	状态	重要度
`.github/workflows/pr-test-amd.yml`	CI 配置	modified	2.95
`.github/workflows/pr-test-amd-rocm720.yml`	CI 配置	modified	2.95

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低：仅修改 CI 超时配置，不影响任何代码逻辑、模型推理或测试行为。唯一风险是超时时间过长可能使失败任务更晚暴露，但 150 分钟仍远低于 NVIDIA 的 240 分钟，且集中在一个步骤，不延长整体流水线时间。

影响范围仅限于 AMD CI 流水线中的扩散模型测试步骤，直接消除因网络下载超时导致的假阴性失败。对其他 AMD 测试步骤、NVIDIA CI、用户端均无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

#23944 [AMD] Fix CI test_diffusion_generation[flux_2_image_t2i_2_gpus]

执行摘要

AMD CI 超时提升至 150 分钟

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论