Prhub

#38664 [CI][ROCm] Add Qwen3.5-35B-A3B-MXFP4 model eval into CI

原始 PR 作者 BowenBao 合并时间 2026-04-03 12:05 文件变更 2 提交数 2 评论 3 代码增减 +9 / -0

执行摘要

在 ROCm CI 中新增 Qwen3.5-35B-A3B-MXFP4 模型的 GSM8K 评估配置

根据PR标题和作者BowenBao的说明,目的是将经过本地TP2验证的Qwen3.5-35B-A3B-MXFP4模型(来自Hugging Face仓库amd/Qwen3.5-35B-A3B-MXFP4)的评估纳入持续集成(CI)流程。PR body中提到“一旦mxfp4模型公开,就将此PR标记为就绪”,表明这是一个预先准备,待模型公开后即可启用CI验证,确保该量化模型在vLLM框架下的兼容性和性能。

该PR变更简单直接,无需精读。对于技术管理者,可关注其反映了vLLm在持续扩展对量化模型(尤其是MXFP4格式)和ROCm平台的支持趋势。对于工程师,仅当需要了解GSM8K评估CI配置格式或Qwen3.5模型量化测试参数时可参考。

讨论亮点

Review讨论非常简短,仅有一次实质性交流:

  • AndreasKaratzas 在初始提交的diff中注意到模型路径是本地路径 /shareddata/amd/Qwen3.5-35B-A3B-MXFP4,评论提醒“模型公开后别忘了更改这部分”。
  • BowenBao 回复“nice catch”,并在后续提交中将模型路径更新为远程Hugging Face URL。
  • tjtanaa 最终批准(LGTM),无其他争议或深入讨论。

实现拆解

实现非常简单,仅涉及两个配置文件的改动:

  1. 新增配置文件 tests/evals/gsm8k/configs/Qwen3.5-35B-A3B-MXFP4-TP2.yaml:定义了模型评估的具体参数,包括模型名称、精度阈值(0.82)、容差(0.03)、问题数量(1319)、few-shot数量(5)以及服务器启动参数(--max-model-len 4096 --tensor-parallel-size 2)。
  2. 修改模型列表文件 tests/evals/gsm8k/configs/models-qwen35-mi355.txt:将上述新增的YAML配置文件名添加到列表中,使其被CI系统识别并执行。
文件 模块 状态 重要度
tests/evals/gsm8k/configs/Qwen3.5-35B-A3B-MXFP4-TP2.yaml CI/ 测试 added 5.0
tests/evals/gsm8k/configs/models-qwen35-mi355.txt CI/ 测试 modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

模型路径从本地更新为远程 URL 正确性

AndreasKaratzas 指出初始提交中模型路径为本地路径 `/shareddata/amd/Qwen3.5-35B-A3B-MXFP4`,提醒待模型公开后需更改。BowenBao 确认并更新为远程 Hugging Face URL。

结论:作者接受建议,在第二次提交中将模型路径改为远程 URL,确保 CI 可访问。 · 已解决

风险与影响

技术风险极低:

  • 回归风险:无,仅添加配置,未修改任何核心代码。
  • 性能风险:无,配置本身不引入性能开销,但CI执行新增测试会略微增加流水线时间。
  • 兼容性风险:低,配置参数(如tensor-parallel-size: 2)与现有CI框架兼容,但依赖远程模型仓库的可用性。
  • 安全风险:无。
    主要风险在于CI依赖外部模型仓库(Hugging Face),若模型不可访问或变更,可能导致CI失败。

影响范围有限:

  • 对用户:无直接影响,不改变vLLM运行时功能或API。
  • 对系统:扩展了CI测试覆盖范围,新增一个量化模型(Qwen3.5-35B-A3B-MXFP4)在ROCm平台上的评估,有助于提前发现该模型部署问题。
  • 对团队:为AMD(PR作者来自AMD)提供了针对特定量化模型的持续验证能力,加强了vLLM对ROCm和MXFP4量化格式的支持生态。影响程度为低,仅涉及CI配置。
依赖外部模型仓库

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR在vLLM的ROCm CI流水线中新增了Qwen3.5-35B-A3B-MXFP4量化模型的GSM8K评估配置,通过创建YAML配置文件和更新模型列表实现。这是一个低风险的CI基础设施变更,旨在验证该模型在AMD硬件上的推理准确性,不影响核心功能。变更已通过简单review并合并。

功能与动机

根据PR标题和作者说明,动机是将已在本地通过TP2验证的Qwen3.5-35B-A3B-MXFP4模型(来自Hugging Face仓库amd/Qwen3.5-35B-A3B-MXFP4)纳入持续集成测试。PR body中提到“一旦mxfp4模型公开,就将此PR标记为就绪”,表明这是一个预先准备的配置,待模型公开后即可启用CI验证,确保该量化模型在vLLM框架下的兼容性和性能。这反映了vLLM团队对扩展量化模型(尤其是MXFP4格式)和ROCm平台支持的趋势。

实现拆解

实现仅涉及两个配置文件的改动,无代码逻辑变更:

文件路径 变更 关键内容
tests/evals/gsm8k/configs/Qwen3.5-35B-A3B-MXFP4-TP2.yaml 新增 定义模型评估参数:
- model_name: "amd/Qwen3.5-35B-A3B-MXFP4"
- accuracy_threshold: 0.82
- tolerance: 0.03
- num_questions: 1319
- num_fewshot: 5
- server_args: "--max-model-len 4096 --tensor-parallel-size 2"
tests/evals/gsm8k/configs/models-qwen35-mi355.txt 修改 添加一行 Qwen3.5-35B-A3B-MXFP4-TP2.yaml,将新配置注册到CI模型列表中

评论区精华

Review讨论非常简短,核心交锋仅一点:

AndreasKaratzas 在初始提交的diff中评论:“Don't forget to change this part too once the model is out. Thank you for this contribution :)”

BowenBao 回复:“nice catch”

这指向初始提交中模型路径为本地路径 /shareddata/amd/Qwen3.5-35B-A3B-MXFP4,作者在后续提交中将其更新为远程Hugging Face URL,确保CI可访问。tjtanaa最终批准(LGTM),无其他争议。

风险与影响

  • 技术风险:极低。仅添加配置,未修改核心代码,无回归、性能或安全风险。主要风险是CI依赖外部模型仓库(Hugging Face),若模型不可访问或变更,可能导致CI失败。
  • 影响分析
    • 对用户无直接影响,不改变vLLM运行时功能。
    • 对系统扩展了CI测试覆盖,新增一个量化模型在ROCm平台上的评估,有助于提前发现部署问题。
    • 对团队为AMD提供了针对特定量化模型的持续验证能力,加强了vLLM对ROCm和MXFP4量化格式的支持生态。影响程度低,仅涉及CI配置。

关联脉络

从近期历史PR可见相关脉络:

  • PR #38292:同样在ROCm CI中添加量化模型(gpt-oss w4a8)评估配置,属于同一类CI扩展活动。
  • PR #38832:修复Qwen3.5模型在NVFP4量化下的崩溃问题,与本PR关注的Qwen3.5-35B-A3B-MXFP4模型同属Qwen3.5家族,反映团队对Qwen3.5模型量化支持的持续投入。
  • PR #33657:为Qwen3.5模型在XPU上启用GDN注意力支持,与本PR在ROCm上支持Qwen3.5量化模型类似,均属扩展vLLM对Qwen3.5模型在不同平台和配置下的覆盖。

整体上,这些PR共同体现了vLLm在v1版本中积极扩展对多样化模型(尤其是Qwen系列)、量化格式(如MXFP4、NVFP4)和硬件平台(ROCm、XPU)的支持,以提升框架的兼容性和生态系统。

参与讨论