#21004 [Fix] Add EPLB rebalance support for Kimi K2.5

原始 PR 作者 yafengio 合并时间 2026-03-26 12:01 文件变更 1 提交数 1 评论 10 代码增减 +4 / -0

执行摘要

为 Kimi K2.5 模型添加 EPLB 负载均衡所需的 routed_experts_weights_of_layer 属性，修复 AttributeError。

根据PR body中的错误日志，当启用EPLB负载均衡时，Kimi K2.5模型在调度过程中抛出AttributeError：'KimiK25ForConditionalGeneration' object has no attribute 'routed_experts_weights_of_layer'。该错误发生在EPLB管理器尝试访问模型属性以进行负载均衡时，导致服务器崩溃。

该PR变更简单直接，是典型的缺失属性修复。对于关注Kimi模型支持或EPLB负载均衡机制的工程师，可快速浏览以了解模型类如何暴露专家权重信息。无需深入分析代码逻辑。

讨论亮点

review中仅有一条来自gemini-code-assist[bot]的代码风格建议，建议为新增属性添加返回类型提示（-> dict）以保持代码一致性。该建议未被采纳（最终代码未添加类型提示），但reviewer yeahdongcn已批准PR。

实现拆解

在python/sglang/srt/models/kimi_k25.py文件的KimiK25ForConditionalGeneration类中，新增一个只读属性routed_experts_weights_of_layer，该属性返回self.language_model._routed_experts_weights_of_layer.value，将属性访问委托给底层的语言模型。

文件	模块	状态	重要度
`python/sglang/srt/models/kimi_k25.py`	models	modified	8.0

关键符号

routed_experts_weights_of_layer

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

为 routed_experts_weights_of_layer 属性添加类型提示 style

gemini-code-assist[bot] 建议为新增属性添加返回类型提示（-> dict）以保持与类中其他属性（如 start_layer、end_layer）的一致性，提高代码清晰度。

结论：建议未被采纳，最终代码未添加类型提示。 · 已解决

风险与影响

风险较低：

变更范围极小（仅4行代码），仅添加一个属性委托，不涉及核心逻辑修改。
可能存在的风险是如果底层语言模型的_routed_experts_weights_of_layer.value结构不符合预期，可能导致后续EPLB逻辑错误，但该风险在现有代码中已存在。
缺少类型提示可能影响代码可读性，但不会影响运行时行为。

对用户：修复了Kimi K2.5模型在启用EPLB负载均衡时的服务器崩溃问题，使负载均衡功能恢复正常。
对系统：确保EPLB管理器能正确访问专家权重信息，优化多专家模型的负载分布。
对团队：解决了特定模型配置下的阻塞性问题，支持了Kimi K2.5模型在EPLB环境下的稳定运行。

缺少类型提示

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该PR修复了Kimi K2.5模型在启用EPLB（Expert Parallel Load Balancing）负载均衡时因缺少routed_experts_weights_of_layer属性而导致的AttributeError。通过在KimiK25ForConditionalGeneration类中添加该属性，将访问委托给底层语言模型，确保EPLB管理器能正确获取专家权重信息，解决了服务器崩溃问题。变更范围极小（仅4行代码），风险较低。

功能与动机

根据PR body中的错误日志，当启用EPLB负载均衡时，Kimi K2.5模型在调度过程中抛出以下错误：

AttributeError: 'KimiK25ForConditionalGeneration' object has no attribute 'routed_experts_weights_of_layer'

该错误发生在EPLB管理器尝试访问模型属性以进行负载均衡时（具体在eplb_manager.py的_compute_update_layer_ids_chunks方法中），导致服务器崩溃。PR的目标是添加缺失的属性，使EPLB功能对Kimi K2.5模型正常工作。

实现拆解

仅修改一个文件：python/sglang/srt/models/kimi_k25.py。

在KimiK25ForConditionalGeneration类中新增一个只读属性：

@property
def routed_experts_weights_of_layer(self):
    return self.language_model._routed_experts_weights_of_layer.value

该属性将访问委托给底层的语言模型（self.language_model），返回其_routed_experts_weights_of_layer.value，从而提供EPLB管理器所需的专家权重信息。

评论区精华

review中仅有一条来自gemini-code-assist[bot]的代码风格建议：

为保持与类中其他属性（如start_layer和end_layer）的一致性并提高代码清晰度，请添加返回类型提示。由于此属性似乎返回字典，-> dict将是合适的类型提示。

该建议未被采纳（最终代码未添加类型提示），但reviewer yeahdongcn已批准PR。

风险与影响

风险分析：

变更范围极小，仅添加属性委托，不涉及核心逻辑修改，风险较低。
潜在风险：如果底层语言模型的_routed_experts_weights_of_layer.value结构不符合预期（例如非字典类型），可能导致后续EPLB逻辑错误，但该风险在现有代码中已存在。
缺少类型提示可能影响代码可读性，但不会影响运行时行为。

影响分析：

对用户：修复了Kimi K2.5模型在启用EPLB负载均衡时的服务器崩溃问题，使负载均衡功能恢复正常。
对系统：确保EPLB管理器能正确访问专家权重信息，优化多专家模型（MoE）的负载分布。
对团队：解决了特定模型配置下的阻塞性问题，支持了Kimi K2.5模型在EPLB环境下的稳定运行。

关联脉络

该PR是Kimi K2.5模型支持系列的一部分：

PR #22269 为Kimi K2.5添加了Encoder-Prefill-Decode (EPD) 解耦支持，扩展了多模态推理架构。
PR #22381 为Kimi模型添加了LoRA支持，并优化了量化MoE兼容性。

本PR修复了这些功能在EPLB负载均衡下的一个关键缺失属性，体现了sglang项目在持续扩展对特定模型（尤其是MoE模型）的深度支持，特别是在负载均衡和并行化方面的优化。

#21004 [Fix] Add EPLB rebalance support for Kimi K2.5

执行摘要

为 Kimi K2.5 模型添加 EPLB 负载均衡所需的 routed_experts_weights_of_layer 属性，修复 AttributeError。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论