Prhub

#37906 [ROCm][CI] Split Entrypoints Integration (API Server 1) into 3 jobs

原始 PR 作者 AndreasKaratzas 合并时间 2026-03-24 09:48 文件变更 1 提交数 1 评论 2 代码增减 +70 / -4

执行摘要

将 AMD CI 中的 Entrypoints 集成测试作业拆分为三个并行作业,以优化 ROCm 硬件回归跟踪。

根据PR body,动机是“Applies the splitting in AMD CI external signal as well, so that we can easily track regressions on ROCm hardware too.” 并引用了相关PR #37882,旨在将测试拆分模式扩展到AMD CI环境中。

对于关注CI配置或ROCm测试的工程师,值得快速浏览以了解测试拆分模式;review中提出的可维护性问题值得在类似更改中考虑,但PR本身逻辑简单。

讨论亮点

review中,gemini-code-assist[bot]指出新引入的作业存在显著配置重复,例如timeout_in_minutes和source_file_dependencies在三个部分中重复定义,建议使用YAML anchors创建可重用模板以提高可维护性。例如评论中提到:“There is significant configuration duplication between the newly introduced Part 1, Part 2, and Part 3 jobs.” 但PR被批准合并,未显示是否采纳此建议。

实现拆解

实现集中在单个文件.buildkite/test-amd.yaml中。关键变更包括:将原作业“Entrypoints Integration (API Server 1)”拆分为三个新作业(Part 1、Part 2、Part 3),每个作业针对不同测试子集(如chat_completion、completion、speech_to_text等),并为mi325和mi355两个代理池都应用了相同的拆分逻辑。

文件 模块 状态 重要度
.buildkite/test-amd.yaml CI 配置 modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

配置重复在 mi325 作业中 设计

gemini-code-assist[bot] 指出新引入的 Part 1、Part 2、Part 3 作业存在显著配置重复,建议使用 YAML anchors 创建可重用模板以提高可维护性。

结论:建议未被采纳,但 PR 被批准合并。 · not addressed

配置重复在 mi355 作业中 设计

类似地,gemini-code-assist[bot] 指出 mi355 代理池的作业也存在配置重复,建议使用 YAML anchor 来优化。

结论:建议未被采纳,但 PR 被批准合并。 · not addressed

风险与影响

主要风险是配置重复导致的维护负担,任何公共设置的更改需要在多个地方更新,容易引入错误。此外,测试拆分可能意外遗漏某些测试,造成覆盖不全,但基于现有PR #37882的模式,风险较低。

对最终用户无直接影响,是内部CI优化。对开发团队,可以更细粒度地跟踪ROCm硬件上的回归,可能缩短CI运行时间。对系统,CI执行更高效,但增加了配置复杂性。

配置重复 维护负担增加

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论