#1736 [docker] Fix IndexCache with mla model
作者 zhuzilin · 合并时间 2026-03-18 11:32
修复Docker环境中mla模型IndexCache的bug,更新SGLang补丁和版本号。
建议精读docker/patch/latest/sglang.patch的变更,了解mla模型中IndexCache的修复机制,这对理解SGLang的注意力优化有价值。
作者 zhuzilin · 合并时间 2026-03-18 11:32
修复Docker环境中mla模型IndexCache的bug,更新SGLang补丁和版本号。
建议精读docker/patch/latest/sglang.patch的变更,了解mla模型中IndexCache的修复机制,这对理解SGLang的注意力优化有价值。
作者 zhuzilin · 合并时间 2026-03-18 10:32
更新SGLang补丁并禁用路由器断路器,修复RDMA会话中断问题。
建议涉及RDMA或路由器配置的工程师精读此PR,关注slime/ray/rollout.py中的设计决策,特别是禁用断路器的权衡,以确保理解潜在风险。
作者 zhuzilin · 合并时间 2026-03-17 10:37
修复权重更新中的CUDA IPC缓存泄漏,防止GPU内存累积。
对于涉及GPU内存管理或权重更新模块的工程师,建议精读此PR以学习CUDA IPC泄漏的修复技巧;对于一般读者,可关注变更点以规避类似的内存管理问题。
作者 zhuzilin · 合并时间 2026-03-13 15:16
更新 Docker 补丁以支持 GLM4.6V 和 Kimi K2.5 模型,并优化 DSA CP 逻辑。
建议技术管理者和工程师精读 sglang.patch 中的调度器变更,以理解分布式训练中 CP 和 TP 分组的设计权衡,以及错误处理策略的调整。
参与讨论