执行摘要
此PR在vllm仓库的CI配置中添加了一个新的测试条目,用于在AMD MI355 GPU上运行Qwen3.5模型的GSM8K评估测试。变更涉及更新Buildkite YAML文件和新增模型配置文件,以增强ROCm平台的测试覆盖。
功能与动机
PR动机源于扩展ROCm平台测试范围的需求。作者在PR body中明确表示:"Adds a new CI entry for running Qwen3.5 model evaluation on MI355 GPUs",旨在验证Qwen3.5模型在AMD硬件上的正确性。
实现拆解
主要改动点如下:
- 在
.buildkite/test-amd.yaml中新增一个Buildkite步骤:
```yaml
- label: LM Eval Qwen3.5 Models (MI355)
timeout_in_minutes: 120
mirror_hardwares: [amdexperimental, amdproduction, amdgfx950nightly, amdmi355]
commands: - pytest -s -v evals/gsm8k/test_gsm8k_correctness.py --config-list-file=configs/models-qwen35-mi355.txt
```
- 创建配置文件
tests/evals/gsm8k/configs/models-qwen35-mi355.txt,内容为Qwen3.5-35B-A3B-DEP2.yaml。
评论区精华
Review讨论聚焦于两个关键点:
- 标签准确性:gemini-code-assist[bot]指出初始标签"LM Eval Qwen3.5 Models (B200-MI355)"混淆了NVIDIA B200和AMD MI355硬件,建议修改为"MI355"以避免误解。
- 依赖项管理:tjtanaa建议添加Qwen系列模型的父类依赖,而AndreasKaratzas回应已添加qwen、qwen2、qwen3文件以覆盖所有情况,同时移除不相关的qwen3_next文件,优化CI资源使用。
风险与影响
风险较低,但需注意:
- 依赖项不精确可能导致CI运行不必要文件,增加资源浪费。
- 配置错误可能使测试失败,影响ROCm平台测试可靠性。
影响方面,此PR对用户无直接感知,但能提升系统在AMD硬件上的模型验证能力,团队需维护好依赖项以确保CI效率。
关联脉络
从近期历史PR看,此PR与#38014(添加b200测试)和#38161(修复ROCm CI测试)类似,都属于CI测试增强。这反映了团队在扩展多硬件平台测试覆盖上的持续努力,尤其是针对Qwen模型和ROCm生态。
参与讨论