feat: add Qwen3.5-4B model support - THUDM/slime

#1721 feat: add Qwen3.5-4B model support

THUDM/slime · 作者 shihaohou · 合并时间 2026-03-22 16:26

分析状态已生成

文件变更 1提交数 1 · 评论 0

代码增减 +27 / -0

configuration shell

添加 Qwen3.5-4B 模型配置脚本，支持该模型的启动。

根据PR body，主仓库已包含Qwen3.5核心支持（如slime_plugins/models/qwen3_5.py等文件），但缺少4B预设脚本。添加此脚本后，下游启动脚本可以源专用配置以支持密集混合Qwen3.5-4B模型。

这是一个简单的配置添加，对于关注模型配置细节或Qwen系列模型的工程师值得浏览，但无复杂设计决策，一般用户无需深究脚本内容。

讨论亮点

没有review评论，因此无讨论内容。变更直接由作者提交并合并。

实现拆解

实现仅涉及一个文件：slime/scripts/models/qwen3.5-4B.sh。该shell脚本设置了Qwen3.5-4B的模型参数，包括层数、隐藏大小、注意力头数等，并使用Qwen3.5特定的spec入口点（--spec "slime_plugins.models.qwen3_5" "get_qwen3_5_spec"）。属于scripts/models模块，无核心代码改动。

文件	模块	状态	重要度
`slime/scripts/models/qwen3.5-4B.sh`	scripts/models	added	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

风险与影响

风险较低。主要风险是配置参数是否正确，但作者已验证与HuggingFace Qwen3.5-4B模型配置匹配；脚本语法错误可能导致启动失败，但由于是简单参数设置，且无核心代码变更，回归风险小。兼容性良好，不影响现有功能。

对用户：新增了Qwen3.5-4B模型支持，扩展了模型选择范围，提升用户体验。对系统：仅添加配置文件，不影响现有功能或性能，兼容性无问题。对团队：简化了配置流程，减少手动设置参数的工作量，便于后续维护。

配置验证依赖

执行摘要

该PR在slime仓库中添加了Qwen3.5-4B模型的配置脚本，补全了模型支持链条，使用户能方便地启动和部署该模型。变更仅限于脚本文件，风险低，影响正面。

功能与动机

根据PR描述，仓库已有Qwen3.5核心代码支持（如slime_plugins/models/qwen3_5.py等文件），但缺少4B版本的预设配置脚本。添加此脚本后，下游启动脚本可以直接引用专用配置，简化了密集混合Qwen3.5-4B模型的部署流程。作者在PR body中明确表示：“This PR only adds the missing 4B preset script so that downstream launch scripts can source a dedicated config for the dense hybrid Qwen3.5-4B model。”

实现拆解

实现仅涉及一个文件：slime/scripts/models/qwen3.5-4B.sh。该shell脚本定义了Qwen3.5-4B的架构参数，关键内容如下：

MODEL_ARGS=(
  --spec "slime_plugins.models.qwen3_5" "get_qwen3_5_spec"
  --disable-bias-linear
  --qk-layernorm
  --group-query-attention
  --num-attention-heads 16
  --num-query-groups 4
  --kv-channels 256
  --num-layers 32
  --hidden-size 2560
  --ffn-hidden-size 9216
  --use-gated-attention
  --normalization RMSNorm
  --apply-layernorm-1p
  --position-embedding-type rope
  --norm-epsilon 1e-6
  --rotary-percent 0.25
  --swiglu
  --vocab-size 248320
  --rotary-base 10000000
  --attention-output-gate
)

脚本使用Qwen3.5特定的spec入口点，并设置了如层数、隐藏大小等关键参数。作者已验证这些参数与HuggingFace Qwen3.5-4B模型配置匹配，确保正确性。此变更属于scripts/models模块，无核心代码改动。

评论区精华

本次PR没有review评论，因此无讨论内容。变更直接由作者提交并由zhuzilin合并，表明变更较为直接，未引发争议。

风险与影响

风险：主要风险在于配置参数的正确性，但作者已进行验证；脚本语法错误可能导致启动失败，但由于是简单参数设置，且无核心代码变更，风险可控。无回归风险或安全漏洞。
影响：对用户而言，新增了Qwen3.5-4B模型支持，扩展了模型选择，提升部署便利性；对系统，仅添加配置文件，不影响现有功能和性能，兼容性良好；对团队，简化了配置工作流，减少手动参数设置，便于后续维护和扩展。

关联脉络

从历史PR分析看，类似变更集中在模型配置脚本的修复和优化，体现了仓库对配置脚本的持续维护趋势。相关PR包括：

PR #1719：修复Qwen3-235B-A22B启动脚本的JSON格式问题，涉及类似配置脚本的修改。
PR #1689：修复shell脚本中变量引用导致的glob扩展问题，与本PR的脚本风格相关。
PR #1700：修复qwen3-4B脚本的GPU检测问题，属于同一模型系列配置的优化。
这些PR共同显示了仓库在模型配置支持方面的演进，本PR是这一趋势的延续，补全了Qwen3.5系列的配置支持，为未来类似模型添加提供参考。

支持 Prhub ♥

#1721 feat: add Qwen3.5-4B model support

执行摘要

添加 Qwen3.5-4B 模型配置脚本，支持该模型的启动。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论