# PR #25978 完整报告

- 仓库：`sgl-project/sglang`
- 标题：[AMD] Relaxing Timeout for AMD stage-a
- 合并时间：2026-05-21 17:32
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/25978

---

# PR #25978 分析报告：AMD CI 超时放宽与并行优化

## 执行摘要

本 PR 针对 AMD CI 工作流中的 stage-a 测试超时问题进行修复，将超时限制从 10 分钟放宽至 15 分钟，同时允许 multimodal shard 并行执行，以提升 CI 稳定性和效率。变更仅涉及两个 YAML 配置文件，风险较低。

## 功能与动机

根据 PR body 描述，stage-a 测试在较慢的 mi300 runner 上频繁达到 10 分钟超时上限。例如在 PR #25898 的 CI 运行（run 26208502456）中，`test_basic_sanity.py` 一项就消耗了 331 秒，远高于预估的 160 秒，导致整个步骤超时。此外，ROCm720 CI 中 multimodal shard 设置了 `max-parallel: 1`，原本是为了防止 AITER kernel JIT 编译时资源耗尽，但实际运行时反而因串行执行导致整体耗时增加，且资源逐出问题可以通过其他方式缓解，因此决定去掉该限制。

## 实现拆解

1. **超时调整**：在两个工作流文件（`pr-test-amd.yml` 和 `pr-test-amd-rocm720.yml`）中，将 `timeout-minutes: 10` 改为 `timeout-minutes: 15`。这一修改直接覆盖了 stage-a 测试的运行步骤，为慢速 runner 提供额外 5 分钟的缓冲。

2. **并行 shard 优化**：仅涉及 `pr-test-amd-rocm720.yml`，删除了 multimodal job 策略中的 `max-parallel: 1` 行。这使得原本串行的 4 个 shard 可以同时运行，加快 CI 反馈速度。

### 无关键源码（仅 YAML 配置变更）。

## 评论区精华

无 review 评论。

## 风险与影响

- **风险**：去掉 `max-parallel` 后，多个 shard 同时运行可能增加 GPU 资源争用，但原本限制是为了防止 AITER kernel JIT 资源耗尽，该问题理论上已通过其他改进缓解。超时放宽不会引入功能风险。
- **影响**：直接影响 AMD CI 的 stage-a 测试流程，减少因为超时导致的失败误报，提升开发者体验。对最终用户无影响。

## 关联脉络

- 关联 #25898：该 PR 的 CI 运行暴露了超时问题，是本次调整的直接触发因素。
- 与近期 AMD CI 清理 PR（如 #25266）同属提升 CI 稳定性的系列工作。