← 返回仓库详情

标签聚合

THUDM/slime · 标签视图

标签列表

configuration · 38

bugfix · 29

performance · 16

dependency · 15

multimodal · 12

docker · 9

feature · 8

docs · 6

metrics · 5

shell · 5

wandb · 3

architecture · 2

tools · 1

translation · 1

聚合结果

shell 相关 PR

2026-03-22

#1689 fix: quote `$MOE_LAYER_FREQ`

作者 lawrence-harmonic · 合并时间 2026-03-22 16:29

缺陷修复重要性 3.00 洞察度 3.00

修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。

bugfix shell configuration

这是一个简单的 bugfix，但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师，值得快速浏览以理解问题；对于其他开发者，可作为 shell 编程的学习案例，无需深入精读。

查看完整分析 GitHub 原始 PR

#1700 fix: auto-detect GPUs in qwen3-4b script

作者 ailuntz · 合并时间 2026-03-22 16:27

缺陷修复重要性 5.00 洞察度 3.00

修复qwen3-4B脚本GPU数量硬编码问题，实现自动检测。

bugfix shell configuration

该PR变更简单，值得快速浏览以了解自动检测逻辑的设计决策，如优先用户定义、后回退检测和默认值，适合工程师参考shell脚本优化。

查看完整分析 GitHub 原始 PR

#1721 feat: add Qwen3.5-4B model support

作者 shihaohou · 合并时间 2026-03-22 16:26

功能重要性 5.00 洞察度 2.00

添加Qwen3.5-4B模型配置脚本，支持该模型的启动。

configuration shell

这是一个简单的配置添加，对于关注模型配置细节或Qwen系列模型的工程师值得浏览，但无复杂设计决策，一般用户无需深究脚本内容。

查看完整分析 GitHub 原始 PR

#1742 Support qwen3.5 loss mask for multi-turn SFT

作者 huang3eng · 合并时间 2026-03-22 16:24

功能重要性 6.00 洞察度 6.00

为 Qwen3.5 添加专用的多轮 SFT 损失掩码，修复兼容性问题并优化训练效率。

bugfix configuration performance shell

建议精读 `slime/utils/mask_utils.py` 中的 `gen_multi_turn_loss_mask_qwen3_5` 函数，学习其基于 `offset_mapping` 的 token 级监督推导方法，以及验证 tokenization 一致性的设计。对于涉及多轮对话 SFT 的开发者，此 PR 提供了处理聊天模板差异的参考方案。

查看完整分析 GitHub 原始 PR

#1749 Update MTP example configs, rename GLM-4.5 to GLM-4.7, clean scripts

作者 zhuzilin · 合并时间 2026-03-22 16:24

文档重要性 3.00 洞察度 2.00

更新MTP示例配置，将GLM-4.5重命名为GLM-4.7，并清理相关脚本。

docs configuration shell

对于技术管理者，此PR无需精读代码，但建议关注文档变更的传播和用户通知。对于工程师，可参考更新的配置参数（如并行设置和投机解码）以优化自己的部署，但需注意脚本兼容性风险。

查看完整分析 GitHub 原始 PR