Prhub

#21898 [CI] Remove crashing Kimi K2.5 EAGLE3/MTP variants, keep TP8 and TP8+DP8

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-02 11:27 文件变更 1 提交数 1 评论 1 代码增减 +4 / -23

执行摘要

移除导致夜间测试崩溃的 Kimi K2.5 MTP 变体,保留 TP8 和 TP8+DP8 配置。

根据PR body描述,Kimi K2.5的MTP变体在夜间测试中持续崩溃:TP8+MTP变体因OOM被杀死(退出码-9),TP8+DP8+MTP变体因未知错误退出(退出码1),在H200和B200 GPU上均出现此问题。移除这些不稳定变体是为了确保CI测试的可靠性,避免因测试崩溃导致的CI失败。

该PR值得快速浏览,以了解CI测试配置的调整。关注点:1) 移除MTP变体的具体原因(OOM和未知错误);2) 新增TP8+DP8变体的配置;3) 测试覆盖范围的变化。对于负责CI或测试的工程师,建议检查是否有其他测试需要类似调整。

讨论亮点

该PR没有review评论,仅有一条由作者提交的PR body描述。因此,没有关于设计权衡、争议或未解决疑虑的讨论。

实现拆解

该PR仅修改了一个文件:test/registered/8-gpu-models/test_kimi_k25.py。主要改动包括:1) 移除与EAGLE3推测解码相关的配置(如EAGLE3_DRAFT_MODEL_PATH变量、eagle3_args参数列表);2) 更新测试类文档,从描述两个变体(基础版和eagle3版)改为仅描述基础版;3) 从测试用例的model_settings列表中移除两个MTP变体(TP8+MTPTP8+DP8+MTP),并新增一个TP8+DP8变体(使用base_args + dp_attn_args参数,无推测解码)。

文件 模块 状态 重要度
test/registered/8-gpu-models/test_kimi_k25.py 测试 modified 8.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

TestKimiK25.test_kimi_k25

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

技术风险较低:1) 回归风险:移除MTP变体可能减少对推测解码功能的测试覆盖,但保留了基础TP8和新增的TP8+DP8变体,核心功能测试仍在。2) 兼容性风险:无,因为这是测试配置的调整,不影响生产代码。3) 性能风险:无,不涉及性能优化。主要风险是测试覆盖范围可能不足,特别是对EAGLE3推测解码的测试缺失。

对用户无直接影响,因为这是CI测试的内部调整。对系统影响:提高CI测试的稳定性,避免因测试崩溃导致的CI失败。对团队影响:简化测试配置,减少维护负担,但可能需后续补充推测解码的测试覆盖。影响范围限于测试基础设施,程度为低到中。

测试覆盖减少

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:移除导致夜间测试崩溃的Kimi K2.5 MTP变体,保留TP8和TP8+DP8配置。
  • 推荐动作:该PR值得快速浏览,以了解CI测试配置的调整。关注点:1) 移除MTP变体的具体原因(OOM和未知错误);2) 新增TP8+DP8变体的配置;3) 测试覆盖范围的变化。对于负责CI或测试的工程师,建议检查是否有其他测试需要类似调整。

功能与动机

根据PR body描述,Kimi K2.5的MTP变体在夜间测试中持续崩溃:TP8+MTP变体因OOM被杀死(退出码-9),TP8+DP8+MTP变体因未知错误退出(退出码1),在H200和B200 GPU上均出现此问题。移除这些不稳定变体是为了确保CI测试的可靠性,避免因测试崩溃导致的CI失败。

实现拆解

该PR仅修改了一个文件:test/registered/8-gpu-models/test_kimi_k25.py。主要改动包括:1) 移除与EAGLE3推测解码相关的配置(如EAGLE3_DRAFT_MODEL_PATH变量、eagle3_args参数列表);2) 更新测试类文档,从描述两个变体(基础版和eagle3版)改为仅描述基础版;3) 从测试用例的model_settings列表中移除两个MTP变体(TP8+MTPTP8+DP8+MTP),并新增一个TP8+DP8变体(使用base_args + dp_attn_args参数,无推测解码)。

关键文件:

  • test/registered/8-gpu-models/test_kimi_k25.py(模块 测试): 唯一修改的文件,移除了崩溃的MTP变体测试配置,并新增了TP8+DP8变体。

关键符号:TestKimiK25.test_kimi_k25

评论区精华

该PR没有review评论,仅有一条由作者提交的PR body描述。因此,没有关于设计权衡、争议或未解决疑虑的讨论。

  • 暂无高价值评论线程

风险与影响

  • 风险:技术风险较低:1) 回归风险:移除MTP变体可能减少对推测解码功能的测试覆盖,但保留了基础TP8和新增的TP8+DP8变体,核心功能测试仍在。2) 兼容性风险:无,因为这是测试配置的调整,不影响生产代码。3) 性能风险:无,不涉及性能优化。主要风险是测试覆盖范围可能不足,特别是对EAGLE3推测解码的测试缺失。
  • 影响:对用户无直接影响,因为这是CI测试的内部调整。对系统影响:提高CI测试的稳定性,避免因测试崩溃导致的CI失败。对团队影响:简化测试配置,减少维护负担,但可能需后续补充推测解码的测试覆盖。影响范围限于测试基础设施,程度为低到中。
  • 风险标记:测试覆盖减少

关联脉络

  • PR #21767 [CI] add nvfp4 ci test for b200;: 同属CI测试配置调整,涉及多模态生成测试,但本PR专注于移除不稳定测试变体。
  • PR #21890 Allow /rerun-test to checkout fork PR branch for trusted users: 同属CI基础设施改进,但本PR更侧重于测试稳定性维护。
  • PR #21882 Add merge prohibition policy during CI maintenance mode: 同属CI维护相关,本PR是具体测试配置调整以提升稳定性。

参与讨论