Prhub

#24614 [AMD] Route PR multimodal tests to MI325

原始 PR 作者 yctseng0211 合并时间 2026-05-07 23:26 文件变更 1 提交数 1 评论 1 代码增减 +4 / -6

执行摘要

AMD 多模态测试路由到 MI325 并开启并发

PR body 明确指出 'Route the AMD PR-triggered multimodal jobs to MI325 by default and let their partitions run concurrently',目的是利用 MI325 更充足的资源,避免 AITER kernel JIT 编译导致的资源耗尽(原注释),并通过并发执行缩短 PR 测试流水线耗时。

该 PR 属于基础设施调整,技术深度较低。建议快速合入,但可提醒后续关注 MI325 资源使用率和并发稳定性的监控。

讨论亮点

本 PR 无 review 评论,仅由 bingxche 直接批准。

实现拆解

  1. 修改作业命名模板:在 pr-test-amd.yml 中,针对 multimodal-gen-test-1-gpu-amdmultimodal-gen-test-2-gpu-amd 两个作业,将 name 字段中的 runner 选择逻辑从条件判断 (inputs.runner_arch || (github.event_name == 'pull_request' && 'mi300' || 'mi325')) 简化为 inputs.runner_arch || 'mi325',确保 PR 事件默认使用 mi325 runner。
  2. 修改运行器标签:同样在两个作业的 runs-on 字段中,将 runner 选择逻辑替换为固定 fallback 到 'mi325',使得 PR 触发的 multimodal 测试默认运行在 MI325 而非 MI300。
  3. 移除并发限制:删除 max-parallel: 1 配置行,使 matrix 中的多个 partition 可以并行执行,加速整体测试流程。
  4. 准确性测试验证:PR 提供了 CI 运行链接(https://github.com/sgl-project/sglang/actions/runs/25490675144),标注测试通过。
文件 模块 状态 重要度
.github/workflows/pr-test-amd.yml CI 配置 modified 3.8

关键源码片段

.github/workflows/pr-test-amd.yml infrastructure

唯一变更文件,修改了 runner 选择逻辑和并发参数,直接影响 AMD 多模态测试的执行环境与并行度。

# .github/workflows/pr-test-amd.yml 片段
  multimodal-gen-test-1-gpu-amd:
    # 将默认 runner 从 PR 条件判断 (mi300) 改为固定 mi325
    name: ${{ format('multimodal-gen-test-1-gpu-amd (linux-{0}-1gpu-sglang, {1})', inputs.runner_arch || 'mi325', matrix.part) }}
    needs: [check-changes, call-gate]
    if: ...
    strategy:
      fail-fast: false
      # 移除 max-parallel: 1,允许 partition 并发执行
      matrix:
        part: [0, 1, 2, 3]
    runs-on: ${{ format('linux-{0}-1gpu-sglang', inputs.runner_arch || 'mi325') }}
    ...  multimodal-gen-test-2-gpu-amd:
    # 同样修改 name 和 runs-on 的默认值
    name: ${{ format('multimodal-gen-test-2-gpu-amd (linux-{0}-2gpu-sglang, {1})', inputs.runner_arch || 'mi325', matrix.part) }}
    needs: [check-changes, call-gate]
    strategy:
      fail-fast: false
      # 移除 max-parallel: 1
      matrix:
        part: [0, 1, 2]
    runs-on: ${{ format('linux-{0}-2gpu-sglang', inputs.runner_arch || 'mi325') }}

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低。迁移到 MI325 后测试环境可能略有差异,但 PR 已通过关联的 CI 运行验证。并发执行可能暴露资源竞争(如 GPU 显存争用),但 multimodal-gen-test-1-gpu-amd2-gpu-amd 各自使用独立 GPU。若 MI325 资源不足,并发可能导致偶发超时。

仅影响 AMD 相关的 PR 触发 CI,尤其是 multimodal 测试。对非 AMD 用户无影响。团队可更早获得测试结果,提升迭代效率。

并发执行可能引发资源竞争

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论