Prhub

#21792 [CI] Add basic unit test for Minimax-M2.5

原始 PR 作者 trevor-m 合并时间 2026-04-07 06:48 文件变更 1 提交数 3 评论 8 代码增减 +84 / -0

执行摘要

为 MiniMax-M2.5 模型添加基本单元测试,包含 GSM8K 评估和速度测试。

PR body中明确表示‘A smaller test for MiniMax-M2.5, similar to test_deepseek_v3_basic.py’,旨在为新的模型提供类似的基础测试覆盖。Issue评论中trevor-m和dougyster讨论后认为需要添加--reasoning-parser=minimax-append-think参数,以避免GSM8K分数误判。

对于测试工程师和维护者值得精读,了解如何为新模型添加单元测试并配置推理参数。对于一般开发者,可作为测试模式参考,但变更逻辑简单,无需深度解析。

讨论亮点

reviewer dougyster在review中假设不需要parser配置以保持测试基础性,但在Issue评论中,trevor-m提问添加parser的负面影响,dougyster回复表示应添加以避免答案处理错误,结论是添加--reasoning-parser=minimax-append-think参数,并在提交历史中通过迭代更新体现。

实现拆解

新增文件test/registered/8-gpu-models/test_minimax_m25_basic.py,包含TestMiniMaxM25Basic测试类。关键改动:setUpClass中使用--tp=8、--ep-size=8配置启动服务器,并添加--reasoning-parser=minimax-append-think参数;test_a_gsm8k方法运行GSM8K评估并断言准确率大于0.900;test_bs_1_speed方法测试推理速度并断言大于90 token/s。

文件 模块 状态 重要度
test/registered/8-gpu-models/test_minimax_m25_basic.py 测试 added 5.0

关键符号

TestMiniMaxM25Basic.setUpClass TestMiniMaxM25Basic.test_a_gsm8k TestMiniMaxM25Basic.test_bs_1_speed

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

是否添加推理解析器配置 正确性

trevor-m 在 Issue 评论中询问添加 parser 的负面影响,dougyster 回复表示应添加 --reasoning-parser=minimax-append-think 以确保 GSM8K 分数正确处理,避免答案误判。

结论:决定添加该参数,并在提交中实现。 · 已解决

风险与影响

风险较低:测试文件新增,不影响生产代码。但依赖外部模型MiniMax-M2.5的可用性和性能,如果模型路径失效或性能不达标(如准确率低于0.900或速度低于90 token/s),可能导致CI失败。阈值设置可能随环境变化需要调整,存在CI稳定性风险。

对用户无直接影响。对系统:增加测试覆盖,有助于在模型集成时检测回归问题,提升代码质量。对团队:需要维护此测试,确保CI稳定运行,并作为其他模型测试的参考模式。

外部模型依赖 CI 阈值敏感性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论