#38155 [ROCm][CI] Add LM Eval Qwen3.5 Models test for MI355

原始 PR 作者 AndreasKaratzas 合并时间 2026-03-27 00:51 文件变更 2 提交数 6 评论 4 代码增减 +25 / -0

执行摘要

在 AMD MI355 GPU 上添加 Qwen3.5 模型评估测试的 CI 条目。

PR body中明确说明添加新的CI条目用于在MI355 GPUs上运行Qwen3.5模型评估，以扩展ROCm平台的测试范围。

对于关心ROCm CI测试或Qwen模型的工程师，此PR值得快速浏览以了解测试配置；对于其他人员，无需深入阅读。

讨论亮点

Review中主要讨论了：标签混淆（B200 vs MI355），最终建议改为'MI355'；依赖项管理，tjtanaa建议添加Qwen系列父类依赖，AndreasKaratzas回应添加qwen、qwen2、qwen3文件，移除不相关的qwen3_next文件以避免CI资源浪费。

实现拆解

主要改动在两处：

1) 在.buildkite/test-amd.yaml中添加一个Buildkite步骤，名为'LM Eval Qwen3.5 Models (MI355)'，配置超时、硬件、依赖文件和pytest命令；
2) 创建配置文件tests/evals/gsm8k/configs/models-qwen35-mi355.txt，引用Qwen3.5-35B-A3B-DEP2.yaml模型配置。

文件	模块	状态	重要度
`.buildkite/test-amd.yaml`	CI 配置	modified	7.0
`tests/evals/gsm8k/configs/models-qwen35-mi355.txt`	测试配置	added	6.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Job 标签准确性 设计

gemini-code-assist[bot] 指出标签 'LM Eval Qwen3.5 Models (B200-MI355)' 混淆了 NVIDIA B200 和 AMD MI355 硬件，建议修改以避免误解。

结论：标签应改为 'MI355' 以准确反映硬件，最终在 commit 中修正。 · 已解决

依赖项优化 性能

tjtanaa 和 AndreasKaratzas 讨论了依赖项管理，建议添加 Qwen 系列父类依赖（如 qwen、qwen2、qwen3 文件）并移除不相关的 qwen3_next 文件，以优化 CI 资源使用。

结论：最终添加了必要的依赖文件，避免了 wildcard，减少了不必要的 CI 触发。 · 已解决

风险与影响

风险较低，但需注意：依赖项不准确可能导致CI运行不必要文件，增加资源浪费；配置错误可能使测试失败，影响ROCm平台测试可靠性。具体到文件，.buildkite/test-amd.yaml中的依赖列表需要精确匹配模型定义。

对用户无直接影响。系统增加了一个可选测试项，提升ROCm平台对Qwen3.5模型的支持验证。团队需注意依赖项的维护，确保CI效率和测试覆盖。

CI 资源浪费配置错误

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR在vllm仓库的CI配置中添加了一个新的测试条目，用于在AMD MI355 GPU上运行Qwen3.5模型的GSM8K评估测试。变更涉及更新Buildkite YAML文件和新增模型配置文件，以增强ROCm平台的测试覆盖。

功能与动机

PR动机源于扩展ROCm平台测试范围的需求。作者在PR body中明确表示："Adds a new CI entry for running Qwen3.5 model evaluation on MI355 GPUs"，旨在验证Qwen3.5模型在AMD硬件上的正确性。

实现拆解

主要改动点如下：

在.buildkite/test-amd.yaml中新增一个Buildkite步骤：

- label: LM Eval Qwen3.5 Models (MI355)
  timeout_in_minutes: 120
  mirror_hardwares: [amdexperimental, amdproduction, amdgfx950nightly, amdmi355]
  commands: - pytest -s -v evals/gsm8k/test_gsm8k_correctness.py --config-list-file=configs/models-qwen35-mi355.txt

创建配置文件tests/evals/gsm8k/configs/models-qwen35-mi355.txt，内容为Qwen3.5-35B-A3B-DEP2.yaml。

评论区精华

Review讨论聚焦于两个关键点：

标签准确性：gemini-code-assist[bot]指出初始标签"LM Eval Qwen3.5 Models (B200-MI355)"混淆了NVIDIA B200和AMD MI355硬件，建议修改为"MI355"以避免误解。
依赖项管理：tjtanaa建议添加Qwen系列模型的父类依赖，而AndreasKaratzas回应已添加qwen、qwen2、qwen3文件以覆盖所有情况，同时移除不相关的qwen3_next文件，优化CI资源使用。

风险与影响

风险较低，但需注意：

依赖项不精确可能导致CI运行不必要文件，增加资源浪费。
配置错误可能使测试失败，影响ROCm平台测试可靠性。
影响方面，此PR对用户无直接感知，但能提升系统在AMD硬件上的模型验证能力，团队需维护好依赖项以确保CI效率。

关联脉络

从近期历史PR看，此PR与#38014（添加b200测试）和#38161（修复ROCm CI测试）类似，都属于CI测试增强。这反映了团队在扩展多硬件平台测试覆盖上的持续努力，尤其是针对Qwen模型和ROCm生态。

#38155 [ROCm][CI] Add LM Eval Qwen3.5 Models test for MI355

执行摘要

在 AMD MI355 GPU 上添加 Qwen3.5 模型评估测试的 CI 条目。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论