Prhub

#23247 [AMD] Fix multimodal timeout issue : rocm7.2 PR Test

原始 PR 作者 yctseng0211 合并时间 2026-04-20 18:36 文件变更 1 提交数 1 评论 1 代码增减 +2 / -2

执行摘要

修复 AMD ROCm7.2 多模态测试超时问题,将分区数从 2 增至 3。

根据 PR body 描述,multimodal-gen-test-2-gpu-amd 测试套件在分区 0 持续超时。根本原因是:该套件有 1 个独立测试文件(test_disagg_server.py)和 22 个参数化测试用例。原配置 total_partitions=2,分区逻辑为参数化分区数 = 总分区数 - 独立文件数,因此只有 1 个分区用于所有 22 个参数化测试,导致分区 0 运行全部 22 个测试而超时,分区 1 仅运行独立文件约 11 分钟。

该 PR 变更简单直接,适合快速浏览以了解 CI 负载均衡的常见问题模式。值得关注的是作者对分区逻辑(参数化分区数 = 总分区数 - 独立文件数)的深入分析,这对设计可扩展的测试套件有参考价值。

讨论亮点

Review 中仅有一名审核者(bingxche)批准,未留下评论。从 PR body 可看出,作者已详细分析了超时的根本原因和修复方案,但未在 review 中引发进一步讨论。

实现拆解

  1. 定位问题文件:修改 .github/workflows/pr-test-amd-rocm720.yml,这是 AMD ROCm7.2 CI 的工作流配置文件,控制多模态测试的执行分区。
  2. 调整分区配置:将 part 矩阵值从 [0, 1] 改为 [0, 1, 2],将总分区数从 2 增加到 3。
  3. 更新分区参数:将 --total-partitions 参数从 2 改为 3,确保测试脚本使用新的分区数。
  4. 影响说明:此改动仅影响 CI 基础设施,不涉及任何源码、测试逻辑或部署脚本的变更。
文件 模块 状态 重要度
.github/workflows/pr-test-amd-rocm720.yml CI 配置 modified 3.13

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。变更仅涉及 CI 工作流配置,不修改任何业务逻辑、测试用例或依赖。潜在风险包括:

  • 配置错误:如果分区数增加导致其他测试套件(如 1-gpu)的分区逻辑异常,可能引发新的超时或资源分配问题,但本 PR 仅针对 2-gpu 套件。
  • 资源消耗:增加分区可能略微增加 CI 运行器的并行负载,但原问题正是由于负载不均衡导致超时,此调整旨在优化资源利用。

影响范围有限:仅影响 AMD ROCm7.2 CI 中的多模态 2-gpu 测试套件。

  • 用户影响:无直接影响,这是内部 CI 优化。
  • 系统影响:解决测试超时问题,提高 CI 稳定性和效率。
  • 团队影响:减少因超时导致的 CI 失败,提升开发体验。
配置变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论