Prhub

#1722 [docker] patches for glm4.6v, kimi k2.5 and dsa cp only

THUDM/slime · 作者 zhuzilin · 合并时间 2026-03-13 15:16

分析状态 已生成
文件变更 3提交数 1 · 评论 0
代码增减 +176 / -20
docker performance configuration multimodal

执行摘要

更新 Docker 补丁以支持 GLM4.6V 和 Kimi K2.5 模型,并优化 DSA CP 逻辑。

PR body 为空,但从标题 '[docker] patches for glm4.6v, kimi k2.5 and dsa cp only' 推测,动机是为了添加对新模型的支持并修复分布式训练中的特定配置问题,确保系统能够正确处理这些模型的训练和推理。

建议技术管理者和工程师精读 sglang.patch 中的调度器变更,以理解分布式训练中 CP 和 TP 分组的设计权衡,以及错误处理策略的调整。

讨论亮点

本次 PR 没有 review 评论或讨论,因此无争议点或决策记录。

实现拆解

实现分为三个部分:1) 修改 docker/patch/latest/megatron.patch,在 MultimodalRotaryEmbedding 类中添加 packed_seq 判断,优化 CP 切片逻辑以避免在 THD 格式下重复处理;2) 修改 docker/patch/latest/sglang.patch,包括将 ModelConfig 中的 Transformers 版本错误从 ValueError 降级为 warning,允许兼容旧版本,并在 SchedulerDisaggregationPrefillMixin 中引入超时处理和调整 gloo 分组以防止死锁;3) 更新 docker/version.txt 以反映补丁版本变化。

文件 模块 状态 重要度
docker/patch/latest/sglang.patch docker patches modified 7.0
docker/patch/latest/megatron.patch megatron core modified 6.0
docker/version.txt docker versioning modified 2.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

MultimodalRotaryEmbedding ModelConfig SchedulerDisaggregationPrefillMixin

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

技术风险包括:1) 修改 megatron 中的 CP 切片逻辑可能引入回归错误,影响注意力计算正确性;2) 将 Transformers 版本错误降级为警告可能导致在不兼容版本下运行而未及时报错;3) 新增的超时处理逻辑(如 SGLANG_DISAGGREGATION_TRANSFER_TIMEOUT)需要合理配置,否则可能导致请求过早失败。

对用户:提升了对 GLM4.6V 和 Kimi K2.5 模型的支持,用户可以直接使用这些模型进行训练。对系统:优化了分布式训练中的死锁预防和错误处理,提高系统稳定性。对团队:维护了 Docker 补丁的更新,确保与上游依赖同步。

核心路径变更 错误处理降级 超时配置风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

PR 分析报告

执行摘要

本次 PR 更新了 Docker 补丁以支持新模型 GLM4.6V 和 Kimi K2.5,并优化了分布式训练中的 CP 逻辑,提升系统兼容性和稳定性。

功能与动机

动机源于添加对新发布模型的支持并修复分布式训练配置问题。PR body 为空,但从标题推断,旨在确保系统能够正确处理这些模型的训练和推理,解决潜在的死锁和兼容性问题。

实现拆解

  • docker/patch/latest/megatron.patch:修改 MultimodalRotaryEmbedding 类,添加 packed_seq 判断,优化 CP 切片逻辑以避免在 THD 格式下重复处理。
  • docker/patch/latest/sglang.patch:调整 ModelConfig 中的错误处理,将 Transformers 版本不兼容错误从 ValueError 降级为 warning,允许兼容旧版本;在 SchedulerDisaggregationPrefillMixin 中引入超时处理和调整 gloo 分组(使用 full TP group 当 CP > 1)以防止死锁。
  • docker/version.txt:更新版本号至 nightly-dev-20260313a,反映补丁更新。

评论区精华

本次 PR 没有 review 评论或讨论,因此无争议点或决策记录。

风险与影响

风险:修改 CP 逻辑可能引入回归错误,影响注意力计算正确性;错误处理降级可能导致在不兼容版本下运行而未及时报错;超时配置需要合理设置,否则可能导致请求过早失败。
影响:对用户而言,可直接使用新模型进行训练;系统分布式训练更稳定;团队需持续维护 Docker 补丁更新。

关联脉络

与近期 PR 1743(更新 sglang 补丁)、PR 1745(GLM4V 多模态支持改进)和 PR 1749(GLM 模型配置更新)相关,显示团队持续优化模型支持和 Docker 基础设施,形成对 GLM 系列模型和多模态训练的持续演进。

参与讨论