#1689 fix: quote `$MOE_LAYER_FREQ`
作者 lawrence-harmonic · 合并时间 2026-03-22 16:29
修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。
这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。
标签列表
聚合结果
作者 lawrence-harmonic · 合并时间 2026-03-22 16:29
修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。
这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。
作者 ailuntz · 合并时间 2026-03-22 16:27
修复qwen3-4B脚本GPU数量硬编码问题,实现自动检测。
该PR变更简单,值得快速浏览以了解自动检测逻辑的设计决策,如优先用户定义、后回退检测和默认值,适合工程师参考shell脚本优化。
作者 shihaohou · 合并时间 2026-03-22 16:26
添加Qwen3.5-4B模型配置脚本,支持该模型的启动。
这是一个简单的配置添加,对于关注模型配置细节或Qwen系列模型的工程师值得浏览,但无复杂设计决策,一般用户无需深究脚本内容。
作者 huang3eng · 合并时间 2026-03-22 16:24
为 Qwen3.5 添加专用的多轮 SFT 损失掩码,修复兼容性问题并优化训练效率。
建议精读 `slime/utils/mask_utils.py` 中的 `gen_multi_turn_loss_mask_qwen3_5` 函数,学习其基于 `offset_mapping` 的 token 级监督推导方法,以及验证 tokenization 一致性的设计。对于涉及多轮对话 SFT 的开发者,此 PR 提供了处理聊天模板差异的参考方案。
作者 zhuzilin · 合并时间 2026-03-22 16:24
更新MTP示例配置,将GLM-4.5重命名为GLM-4.7,并清理相关脚本。
对于技术管理者,此PR无需精读代码,但建议关注文档变更的传播和用户通知。对于工程师,可参考更新的配置参数(如并行设置和投机解码)以优化自己的部署,但需注意脚本兼容性风险。