Prhub

#23130 [AMD]Fix AMD multimodal-gen-test-2-gpu timeout by adding partition for standalone test

原始 PR 作者 yctseng0211 合并时间 2026-04-19 23:16 文件变更 1 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

为 AMD 多模态 2-GPU 测试增加分区,解决因单分区运行过多参数化测试导致的超时问题。

根据 PR body 的描述,动机是修复 multimodal-gen-test-2-gpu-amd 在分区 0 上持续超时的问题。根本原因在于分区逻辑:总分区数(total_partitions)为 2,其中有一个独立测试文件(test_disagg_server.py),根据公式 parametrized_partitions = total_partitions - len(standalone_files),只有 1 个分区用于运行所有 22 个参数化测试,导致该分区超时;而另一个分区仅运行独立测试文件(约 11 分钟)。

该 PR 变更简单直接,主要涉及 CI 配置调整,无需深入阅读源码。对于关注 CI 基础设施或 AMD 平台测试稳定性的工程师,可快速浏览以了解分区策略的优化方法。

讨论亮点

Review 中仅有一次批准(由 bingxche 执行),无具体评论或争议点。这表明变更直接明了,团队对修复方案达成共识。

实现拆解

  1. 修改 CI 配置文件:在 .github/workflows/pr-test-amd.yml 中,将 multimodal-gen-test-2-gpu 作业的 part 矩阵从 [0, 1] 改为 [0, 1, 2],并将 --total-partitions 参数从 2 改为 3
  2. 影响:此变更确保总分区数增加后,参数化测试能被分配到 2 个分区(通过 LPT 调度算法),同时独立测试文件 test_disagg_server.py 仍拥有自己的专属分区,从而平衡负载,避免单个分区因运行过多测试而超时。
  3. 配套改动:无其他测试、配置或部署配套改动,仅调整 CI 工作流配置。
文件 模块 状态 重要度
.github/workflows/pr-test-amd.yml CI 配置 modified 3.53

关键源码片段

.github/workflows/pr-test-amd.yml configuration

这是唯一被修改的文件,直接调整了 AMD CI 测试的分区配置,是解决超时问题的核心。

# 在 pr-test-amd.yml 的 multimodal-gen-test-2-gpu 作业中
jobs:
  multimodal-gen-test-2-gpu:
    max-parallel: 1 # 一次运行一个,避免资源耗尽
    matrix:
      runner: [linux-mi325-2gpu-sglang]
      part: [0, 1, 2] # 从 [0, 1] 改为 [0, 1, 2],总分区数增加到 3
    runs-on: ${{matrix.runner}}
    steps:
      - name: Run multimodal 2-gpu test suite
        run: |
          python3 sglang/multimodal_gen/test/run_suite.py \
            --suite 2-gpu \
            --partition-id ${{ matrix.part }} \
            --total-partitions 3  # 从 2 改为 3,确保参数化测试分配到 2 个分区,独立测试文件有专属分区

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。变更仅涉及 CI 工作流配置,不触及核心业务逻辑、性能或安全。潜在风险包括:

  • 配置错误:如果分区数调整不当(例如,增加过多可能导致资源浪费),但当前从 2 到 3 的调整基于明确的计算逻辑(22 个参数化测试需至少 2 个分区),风险可控。
  • CI 稳定性:修改可能影响其他 CI 作业的调度,但仅限于 AMD 2-GPU 测试,影响范围小。

影响范围有限,但直接解决 CI 阻塞问题

  • 对用户:无直接影响,属于内部 CI 优化。
  • 对系统:修复 AMD 多模态 2-GPU 测试的超时问题,提升 CI 稳定性和运行效率。
  • 对团队:减少因 CI 超时导致的开发中断,加速 PR 合并流程。
配置调整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论