Prhub
← 返回仓库列表

THUDM/slime

slime is an LLM post-training framework for RL Scaling.

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 52 · 已分析 52
更多筛选
2026-03-22

#1689 fix: quote `$MOE_LAYER_FREQ`

作者 lawrence-harmonic · 合并时间 2026-03-22 16:29

缺陷修复 重要性 3.00 洞察度 3.00

修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。

这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。

#1700 fix: auto-detect GPUs in qwen3-4b script

作者 ailuntz · 合并时间 2026-03-22 16:27

缺陷修复 重要性 5.00 洞察度 3.00

修复qwen3-4B脚本GPU数量硬编码问题,实现自动检测。

该PR变更简单,值得快速浏览以了解自动检测逻辑的设计决策,如优先用户定义、后回退检测和默认值,适合工程师参考shell脚本优化。

缺陷修复 重要性 5.00 洞察度 4.00

修复httpx客户端默认使用系统代理导致内部SGLang通信失败的问题。

由于变更较小,工程师可快速浏览以理解httpx代理行为;对于涉及集群代理配置的场景,此修复值得参考,建议关注http_utils模块的设计。

#1721 feat: add Qwen3.5-4B model support

作者 shihaohou · 合并时间 2026-03-22 16:26

功能 重要性 5.00 洞察度 2.00

添加Qwen3.5-4B模型配置脚本,支持该模型的启动。

这是一个简单的配置添加,对于关注模型配置细节或Qwen系列模型的工程师值得浏览,但无复杂设计决策,一般用户无需深究脚本内容。

缺陷修复 重要性 5.00 洞察度 4.00

修复DeepseekV32Bridge在transformers 5.x下rope_theta解析问题,确保模型兼容性。

对于处理transformers兼容性或DeepseekV32模型的开发者,建议阅读此PR以了解属性解析模式。设计决策如使用hasattr和getattr是值得学习的兼容性处理技巧。

缺陷修复 重要性 6.00 洞察度 4.00

修复bridge模式中moe_token_dispatcher_type传播缺失导致的ValueError错误。

对于使用bridge模式的开发者,此PR值得快速查看以理解参数传播机制和向后兼容性处理;关注hasattr的使用方式,可作为类似场景的参考。

#1742 Support qwen3.5 loss mask for multi-turn SFT

作者 huang3eng · 合并时间 2026-03-22 16:24

功能 重要性 6.00 洞察度 6.00

为 Qwen3.5 添加专用的多轮 SFT 损失掩码,修复兼容性问题并优化训练效率。

建议精读 `slime/utils/mask_utils.py` 中的 `gen_multi_turn_loss_mask_qwen3_5` 函数,学习其基于 `offset_mapping` 的 token 级监督推导方法,以及验证 tokenization 一致性的设计。对于涉及多轮对话 SFT 的开发者,此 PR 提供了处理聊天模板差异的参考方案。

参与讨论