Prhub
← 返回仓库详情

标签聚合

THUDM/slime · 标签视图

标签列表

聚合结果

shell 相关 PR

2026-03-22

#1689 fix: quote `$MOE_LAYER_FREQ`

作者 lawrence-harmonic · 合并时间 2026-03-22 16:29

缺陷修复 重要性 3.00 洞察度 3.00

修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。

bugfix shell configuration

这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。

#1700 fix: auto-detect GPUs in qwen3-4b script

作者 ailuntz · 合并时间 2026-03-22 16:27

缺陷修复 重要性 5.00 洞察度 3.00

修复qwen3-4B脚本GPU数量硬编码问题,实现自动检测。

bugfix shell configuration

该PR变更简单,值得快速浏览以了解自动检测逻辑的设计决策,如优先用户定义、后回退检测和默认值,适合工程师参考shell脚本优化。

#1721 feat: add Qwen3.5-4B model support

作者 shihaohou · 合并时间 2026-03-22 16:26

功能 重要性 5.00 洞察度 2.00

添加Qwen3.5-4B模型配置脚本,支持该模型的启动。

configuration shell

这是一个简单的配置添加,对于关注模型配置细节或Qwen系列模型的工程师值得浏览,但无复杂设计决策,一般用户无需深究脚本内容。

#1742 Support qwen3.5 loss mask for multi-turn SFT

作者 huang3eng · 合并时间 2026-03-22 16:24

功能 重要性 6.00 洞察度 6.00

为 Qwen3.5 添加专用的多轮 SFT 损失掩码,修复兼容性问题并优化训练效率。

bugfix configuration performance shell

建议精读 `slime/utils/mask_utils.py` 中的 `gen_multi_turn_loss_mask_qwen3_5` 函数,学习其基于 `offset_mapping` 的 token 级监督推导方法,以及验证 tokenization 一致性的设计。对于涉及多轮对话 SFT 的开发者,此 PR 提供了处理聊天模板差异的参考方案。

#1749 Update MTP example configs, rename GLM-4.5 to GLM-4.7, clean scripts

作者 zhuzilin · 合并时间 2026-03-22 16:24

文档 重要性 3.00 洞察度 2.00

更新MTP示例配置,将GLM-4.5重命名为GLM-4.7,并清理相关脚本。

docs configuration shell

对于技术管理者,此PR无需精读代码,但建议关注文档变更的传播和用户通知。对于工程师,可参考更新的配置参数(如并行设置和投机解码)以优化自己的部署,但需注意脚本兼容性风险。