Prhub

#38155 [ROCm][CI] Add LM Eval Qwen3.5 Models test for MI355

vllm-project/vllm · 作者 AndreasKaratzas · 合并时间 2026-03-27 00:51

分析状态 已生成
文件变更 2提交数 6 · 评论 4
代码增减 +25 / -0
rocm ci test qwen

执行摘要

在 AMD MI355 GPU 上添加 Qwen3.5 模型评估测试的 CI 条目。

PR body中明确说明添加新的CI条目用于在MI355 GPUs上运行Qwen3.5模型评估,以扩展ROCm平台的测试范围。

对于关心ROCm CI测试或Qwen模型的工程师,此PR值得快速浏览以了解测试配置;对于其他人员,无需深入阅读。

讨论亮点

Review中主要讨论了:标签混淆(B200 vs MI355),最终建议改为'MI355';依赖项管理,tjtanaa建议添加Qwen系列父类依赖,AndreasKaratzas回应添加qwen、qwen2、qwen3文件,移除不相关的qwen3_next文件以避免CI资源浪费。

实现拆解

主要改动在两处:1) 在.buildkite/test-amd.yaml中添加一个Buildkite步骤,名为'LM Eval Qwen3.5 Models (MI355)',配置超时、硬件、依赖文件和pytest命令;2) 创建配置文件tests/evals/gsm8k/configs/models-qwen35-mi355.txt,引用Qwen3.5-35B-A3B-DEP2.yaml模型配置。

文件 模块 状态 重要度
.buildkite/test-amd.yaml CI 配置 modified 7.0
tests/evals/gsm8k/configs/models-qwen35-mi355.txt 测试配置 added 6.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Job 标签准确性 设计

gemini-code-assist[bot] 指出标签 'LM Eval Qwen3.5 Models (B200-MI355)' 混淆了 NVIDIA B200 和 AMD MI355 硬件,建议修改以避免误解。

结论:标签应改为 'MI355' 以准确反映硬件,最终在 commit 中修正。 · 已解决

依赖项优化 性能

tjtanaa 和 AndreasKaratzas 讨论了依赖项管理,建议添加 Qwen 系列父类依赖(如 qwen、qwen2、qwen3 文件)并移除不相关的 qwen3_next 文件,以优化 CI 资源使用。

结论:最终添加了必要的依赖文件,避免了 wildcard,减少了不必要的 CI 触发。 · 已解决

风险与影响

风险较低,但需注意:依赖项不准确可能导致CI运行不必要文件,增加资源浪费;配置错误可能使测试失败,影响ROCm平台测试可靠性。具体到文件,.buildkite/test-amd.yaml中的依赖列表需要精确匹配模型定义。

对用户无直接影响。系统增加了一个可选测试项,提升ROCm平台对Qwen3.5模型的支持验证。团队需注意依赖项的维护,确保CI效率和测试覆盖。

CI 资源浪费 配置错误

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR在vllm仓库的CI配置中添加了一个新的测试条目,用于在AMD MI355 GPU上运行Qwen3.5模型的GSM8K评估测试。变更涉及更新Buildkite YAML文件和新增模型配置文件,以增强ROCm平台的测试覆盖。

功能与动机

PR动机源于扩展ROCm平台测试范围的需求。作者在PR body中明确表示:"Adds a new CI entry for running Qwen3.5 model evaluation on MI355 GPUs",旨在验证Qwen3.5模型在AMD硬件上的正确性。

实现拆解

主要改动点如下:

  • .buildkite/test-amd.yaml中新增一个Buildkite步骤:
    ```yaml
  • label: LM Eval Qwen3.5 Models (MI355)
    timeout_in_minutes: 120
    mirror_hardwares: [amdexperimental, amdproduction, amdgfx950nightly, amdmi355]
    commands: - pytest -s -v evals/gsm8k/test_gsm8k_correctness.py --config-list-file=configs/models-qwen35-mi355.txt
    ```
  • 创建配置文件tests/evals/gsm8k/configs/models-qwen35-mi355.txt,内容为Qwen3.5-35B-A3B-DEP2.yaml

评论区精华

Review讨论聚焦于两个关键点:

  • 标签准确性:gemini-code-assist[bot]指出初始标签"LM Eval Qwen3.5 Models (B200-MI355)"混淆了NVIDIA B200和AMD MI355硬件,建议修改为"MI355"以避免误解。
  • 依赖项管理:tjtanaa建议添加Qwen系列模型的父类依赖,而AndreasKaratzas回应已添加qwen、qwen2、qwen3文件以覆盖所有情况,同时移除不相关的qwen3_next文件,优化CI资源使用。

风险与影响

风险较低,但需注意:

  • 依赖项不精确可能导致CI运行不必要文件,增加资源浪费。
  • 配置错误可能使测试失败,影响ROCm平台测试可靠性。
    影响方面,此PR对用户无直接感知,但能提升系统在AMD硬件上的模型验证能力,团队需维护好依赖项以确保CI效率。

关联脉络

从近期历史PR看,此PR与#38014(添加b200测试)和#38161(修复ROCm CI测试)类似,都属于CI测试增强。这反映了团队在扩展多硬件平台测试覆盖上的持续努力,尤其是针对Qwen模型和ROCm生态。

参与讨论