Prhub

#1721 feat: add Qwen3.5-4B model support

THUDM/slime · 作者 shihaohou · 合并时间 2026-03-22 16:26

分析状态 已生成
文件变更 1提交数 1 · 评论 0
代码增减 +27 / -0
configuration shell

执行摘要

添加 Qwen3.5-4B 模型配置脚本,支持该模型的启动。

根据PR body,主仓库已包含Qwen3.5核心支持(如slime_plugins/models/qwen3_5.py等文件),但缺少4B预设脚本。添加此脚本后,下游启动脚本可以源专用配置以支持密集混合Qwen3.5-4B模型。

这是一个简单的配置添加,对于关注模型配置细节或Qwen系列模型的工程师值得浏览,但无复杂设计决策,一般用户无需深究脚本内容。

讨论亮点

没有review评论,因此无讨论内容。变更直接由作者提交并合并。

实现拆解

实现仅涉及一个文件:slime/scripts/models/qwen3.5-4B.sh。该shell脚本设置了Qwen3.5-4B的模型参数,包括层数、隐藏大小、注意力头数等,并使用Qwen3.5特定的spec入口点(--spec "slime_plugins.models.qwen3_5" "get_qwen3_5_spec")。属于scripts/models模块,无核心代码改动。

文件 模块 状态 重要度
slime/scripts/models/qwen3.5-4B.sh scripts/models added 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低。主要风险是配置参数是否正确,但作者已验证与HuggingFace Qwen3.5-4B模型配置匹配;脚本语法错误可能导致启动失败,但由于是简单参数设置,且无核心代码变更,回归风险小。兼容性良好,不影响现有功能。

对用户:新增了Qwen3.5-4B模型支持,扩展了模型选择范围,提升用户体验。对系统:仅添加配置文件,不影响现有功能或性能,兼容性无问题。对团队:简化了配置流程,减少手动设置参数的工作量,便于后续维护。

配置验证依赖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该PR在slime仓库中添加了Qwen3.5-4B模型的配置脚本,补全了模型支持链条,使用户能方便地启动和部署该模型。变更仅限于脚本文件,风险低,影响正面。

功能与动机

根据PR描述,仓库已有Qwen3.5核心代码支持(如slime_plugins/models/qwen3_5.py等文件),但缺少4B版本的预设配置脚本。添加此脚本后,下游启动脚本可以直接引用专用配置,简化了密集混合Qwen3.5-4B模型的部署流程。作者在PR body中明确表示:“This PR only adds the missing 4B preset script so that downstream launch scripts can source a dedicated config for the dense hybrid Qwen3.5-4B model。”

实现拆解

实现仅涉及一个文件:slime/scripts/models/qwen3.5-4B.sh。该shell脚本定义了Qwen3.5-4B的架构参数,关键内容如下:

MODEL_ARGS=(
  --spec "slime_plugins.models.qwen3_5" "get_qwen3_5_spec"
  --disable-bias-linear
  --qk-layernorm
  --group-query-attention
  --num-attention-heads 16
  --num-query-groups 4
  --kv-channels 256
  --num-layers 32
  --hidden-size 2560
  --ffn-hidden-size 9216
  --use-gated-attention
  --normalization RMSNorm
  --apply-layernorm-1p
  --position-embedding-type rope
  --norm-epsilon 1e-6
  --rotary-percent 0.25
  --swiglu
  --vocab-size 248320
  --rotary-base 10000000
  --attention-output-gate
)

脚本使用Qwen3.5特定的spec入口点,并设置了如层数、隐藏大小等关键参数。作者已验证这些参数与HuggingFace Qwen3.5-4B模型配置匹配,确保正确性。此变更属于scripts/models模块,无核心代码改动。

评论区精华

本次PR没有review评论,因此无讨论内容。变更直接由作者提交并由zhuzilin合并,表明变更较为直接,未引发争议。

风险与影响

  • 风险:主要风险在于配置参数的正确性,但作者已进行验证;脚本语法错误可能导致启动失败,但由于是简单参数设置,且无核心代码变更,风险可控。无回归风险或安全漏洞。
  • 影响:对用户而言,新增了Qwen3.5-4B模型支持,扩展了模型选择,提升部署便利性;对系统,仅添加配置文件,不影响现有功能和性能,兼容性良好;对团队,简化了配置工作流,减少手动参数设置,便于后续维护和扩展。

关联脉络

从历史PR分析看,类似变更集中在模型配置脚本的修复和优化,体现了仓库对配置脚本的持续维护趋势。相关PR包括:

  • PR #1719:修复Qwen3-235B-A22B启动脚本的JSON格式问题,涉及类似配置脚本的修改。
  • PR #1689:修复shell脚本中变量引用导致的glob扩展问题,与本PR的脚本风格相关。
  • PR #1700:修复qwen3-4B脚本的GPU检测问题,属于同一模型系列配置的优化。
    这些PR共同显示了仓库在模型配置支持方面的演进,本PR是这一趋势的延续,补全了Qwen3.5系列的配置支持,为未来类似模型添加提供参考。

参与讨论