#1749 Update MTP example configs, rename GLM-4.5 to GLM-4.7, clean scripts
作者 zhuzilin · 合并时间 2026-03-22 16:24
更新MTP示例配置,将GLM-4.5重命名为GLM-4.7,并清理相关脚本。
对于技术管理者,此PR无需精读代码,但建议关注文档变更的传播和用户通知。对于工程师,可参考更新的配置参数(如并行设置和投机解码)以优化自己的部署,但需注意脚本兼容性风险。
作者 zhuzilin · 合并时间 2026-03-22 16:24
更新MTP示例配置,将GLM-4.5重命名为GLM-4.7,并清理相关脚本。
对于技术管理者,此PR无需精读代码,但建议关注文档变更的传播和用户通知。对于工程师,可参考更新的配置参数(如并行设置和投机解码)以优化自己的部署,但需注意脚本兼容性风险。
作者 zhuzilin · 合并时间 2026-03-22 14:31
修复序列并行和模型并行中线性注意力层梯度错误膨胀的问题。
建议精读此 PR,特别是 `_AllGatherForDuplicatedComputation` 的设计,它展示了在分布式训练中处理重复计算时避免梯度膨胀的技巧。对于涉及并行计算、注意力机制或模型配置的开发人员,此变更值得深入理解以应用于相关场景。
作者 zhuzilin · 合并时间 2026-03-21 23:59
总是启用SGLang Prometheus指标并移除数据并行上下文管理。
建议工程师精读sglang_rollout.py的变更,特别是dp_rank_context的移除对负载分配的影响,同时检查metrics启用后系统性能。关注设计决策从动态负载平衡到静态或无平衡的转变,并考虑是否需要补充测试覆盖。
作者 zhuzilin · 合并时间 2026-03-21 23:35
新增 placeholder worker 类型、调整指标路由时机并扩展 GPQA 字母范围。
建议精读 slime/ray/rollout.py 中的 _get_metrics_router_addr 方法和 nodes_per_engine 逻辑变更,以理解 placeholder worker 类型支持的设计和指标路由调整时机。同时,查看 slime/router/router.py 的枚举变更以掌握新的 worker type 定义,这对配置服务器组有参考价值。
作者 zhuzilin · 合并时间 2026-03-21 23:32
改进GLM4V多模态支持,增强图像处理和训练兼容性。
建议工程师精读此PR,特别是处理多模态输入和处理器兼容性的部分,以了解如何集成新模型和处理边缘情况,关注图像嵌入选择和回退逻辑的设计决策。
作者 zhuzilin · 合并时间 2026-03-20 14:59
更新Docker环境中的SGLang补丁至新版本,同步上游修复。
建议关注补丁内容,特别是decode.py和model_config.py的变更,以理解SGLang的行为变化;对于使用slime的docker部署,建议在测试环境中验证后再部署到生产环境,确保兼容性。
作者 zhuzilin · 合并时间 2026-03-18 15:45
修复 GLM4V Megatron 桥接中的导入和配置问题。
该 PR 值得精读,尤其对于负责 GLM4V 模型桥接和 Megatron 集成的开发者,可以了解 API 演进和参数传递的最佳实践,关注 `get_gpt_decoder_block_spec` 的使用方式。
作者 zhuzilin · 合并时间 2026-03-18 11:48
支持PD分离并移除radix tree中间件,重构slime路由器以简化架构。
该PR值得精读,特别是slime/router/router.py中的PD分离实现,展示了支持不同类型worker的路由设计决策,以及清理过时代码的架构优化思路。
参与讨论