Prhub

#27352 [AMD] fix(ci): run partition 3 of stage-c-test-large-8-gpu-amd

原始 PR 作者 yctseng0211 合并时间 2026-06-05 15:06 文件变更 1 提交数 1 评论 1 代码增减 +1 / -1

执行摘要

修复 AMD CI 分区 3 被跳过的问题

PR #24762 将 --auto-partition-size 从 3 提升到 4 并更新了 pr-test-amd-rocm720.yml 的矩阵,但遗漏了 pr-test-amd.yml 的矩阵更新,导致 partition 3 从未被调度,约 1/4 的测试套件在 ROCm 7.0 PR 测试中被静默跳过,包括 test_aiter_allreduce_fusion_amd.py、test_aiter_allgather_amd.py、test_deepseek_v3_mtp.py 和 test_deepseek_v3_basic.py 等关键测试。

该 PR 值得合入,它修复了一个静默跳过测试的配置 bug,且修改量极小(一行)。无需深入代码审查,但应确保新增分区 3 的测试在后续 CI 运行中稳定通过。

讨论亮点

PR 仅有一条来自 gemini-code-assist[bot] 的自动回复,表示无法审查涉及的文件类型。无实质 review 讨论。

实现拆解

  1. 修改 .github/workflows/pr-test-amd.yml 中的 matrix.part 定义,将 [0, 1, 2] 扩展为 [0, 1, 2, 3],使得 --auto-partition-size 4 的 4 个分区全部被 CI 调度。
  2. 该变更仅涉及一行配置值,但修复了因 matrix 与分区数不匹配导致的测试覆盖缺口。
文件 模块 状态 重要度
.github/workflows/pr-test-amd.yml CI 配置 modified 3.35

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。仅修改 CI 配置中的一个列表值,使 matrix 与已有的 --auto-partition-size 4 对齐。不涉及任何代码逻辑或运行时变更。唯一的潜在风险是新增的 partition 3 可能会偶尔超时或失败(如果测试用例本身有问题),但这恰好是 PR 意图揭示的已有问题。

直接影响 AMD CI 中 stage-c-test-large-8-gpu-amd 作业的测试覆盖范围:分区 3 中的测试用例(包括融合 allreduce、allgather、DeepSeek V3 MTP 等)将恢复执行。对普通用户无影响,但有助于 AMD 平台测试的完整性和可靠性。

无风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论