#1689 fix: quote `$MOE_LAYER_FREQ`
作者 lawrence-harmonic · 合并时间 2026-03-22 16:29
修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。
这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。
作者 lawrence-harmonic · 合并时间 2026-03-22 16:29
修复 shell 脚本中 moe-layer-freq 参数因未引用变量而导致的 glob 扩展问题。
这是一个简单的 bugfix,但展示了 shell 脚本中常见的 glob 扩展陷阱。对于负责脚本维护或模型配置的工程师,值得快速浏览以理解问题;对于其他开发者,可作为 shell 编程的学习案例,无需深入精读。
作者 ailuntz · 合并时间 2026-03-22 16:27
修复qwen3-4B脚本GPU数量硬编码问题,实现自动检测。
该PR变更简单,值得快速浏览以了解自动检测逻辑的设计决策,如优先用户定义、后回退检测和默认值,适合工程师参考shell脚本优化。
作者 DongzhuoranZhou · 合并时间 2026-03-22 16:27
修复httpx客户端默认使用系统代理导致内部SGLang通信失败的问题。
由于变更较小,工程师可快速浏览以理解httpx代理行为;对于涉及集群代理配置的场景,此修复值得参考,建议关注http_utils模块的设计。
作者 shihaohou · 合并时间 2026-03-22 16:26
添加Qwen3.5-4B模型配置脚本,支持该模型的启动。
这是一个简单的配置添加,对于关注模型配置细节或Qwen系列模型的工程师值得浏览,但无复杂设计决策,一般用户无需深究脚本内容。
作者 WangHong-yang · 合并时间 2026-03-22 16:26
将剩余的中文代码注释翻译为英文,提升代码可读性。
该PR变更简单,无需精读。可快速浏览翻译准确性,尤其是agent_system.py中的流程描述,以确保新注释清晰传达原意。
作者 stevewx · 合并时间 2026-03-22 16:26
修复DeepseekV32Bridge在transformers 5.x下rope_theta解析问题,确保模型兼容性。
对于处理transformers兼容性或DeepseekV32模型的开发者,建议阅读此PR以了解属性解析模式。设计决策如使用hasattr和getattr是值得学习的兼容性处理技巧。
作者 nanjiangwill · 合并时间 2026-03-22 16:25
修复bridge模式中moe_token_dispatcher_type传播缺失导致的ValueError错误。
对于使用bridge模式的开发者,此PR值得快速查看以理解参数传播机制和向后兼容性处理;关注hasattr的使用方式,可作为类似场景的参考。
作者 huang3eng · 合并时间 2026-03-22 16:24
为 Qwen3.5 添加专用的多轮 SFT 损失掩码,修复兼容性问题并优化训练效率。
建议精读 `slime/utils/mask_utils.py` 中的 `gen_multi_turn_loss_mask_qwen3_5` 函数,学习其基于 `offset_mapping` 的 token 级监督推导方法,以及验证 tokenization 一致性的设计。对于涉及多轮对话 SFT 的开发者,此 PR 提供了处理聊天模板差异的参考方案。
参与讨论