# PR #21792 完整报告

- 仓库：`sgl-project/sglang`
- 标题：[CI] Add basic unit test for Minimax-M2.5
- 合并时间：2026-04-07 06:48
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/21792

---

# 执行摘要
PR #21792 为 MiniMax-M2.5 模型添加了基本单元测试，包括 GSM8K 评估和推理速度测试，以增强模型覆盖和 CI 稳定性，已合并，风险较低但需注意外部依赖。

# 功能与动机
此 PR 旨在为 MiniMax-M2.5 模型建立类似 DeepSeek V3 的基础测试模式，解决模型在 SGLang 中集成时的正确性和性能验证问题。动机源于 PR body 的表述：“A smaller test for MiniMax-M2.5, similar to test_deepseek_v3_basic.py”，并结合讨论中提到的确保 GSM8K 答案处理正确性。

# 实现拆解
新增文件 `test/registered/8-gpu-models/test_minimax_m25_basic.py`，关键组件：
- **TestMiniMaxM25Basic 类**：测试框架核心。
 - `setUpClass`：启动服务器，配置参数如 --tp=8、--ep-size=8 和 --reasoning-parser=minimax-append-think。
 - `test_a_gsm8k`：运行 GSM8K 评估，断言准确率 >0.900。
 - `test_bs_1_speed`：测试单批次推理速度，断言 >90 token/s。
- **阈值调整**：提交历史显示从初始值逐步降低 gsm8k 阈值，以适配模型性能。

# 评论区精华
讨论焦点在于推理解析器配置：
- dougyster 在 review 中假设“we don't want any parser configs here to keep this as a basic test”。
- 但在 Issue 评论中，trevor-m 提问后，dougyster 指出“should add --reasoning-parser=minimax-append-think”以避免 GSM8K 分数误判。
- 最终决策添加该参数，确保测试正确性，体现了设计权衡。

# 风险与影响
- **风险**：主要依赖外部模型 MiniMax-M2.5 的可用性，阈值设置可能因环境变化导致 CI 失败；测试文件新增无生产代码影响。
- **影响**：对用户无直接变化，但对系统提升测试覆盖，有助于早期发现回归；团队需维护测试以确保 CI 稳定。

# 关联脉络
与近期多个测试 PR 相关：
- #22194（Qwen3 测试）：类似模型测试和 CI 稳定性修复。
- #22189（测试指南更新）：强调测试编写规范，与本 PR 的测试添加一致。
- #21400（auth 模块测试）：单元测试添加模式参考。
这些 PR 共同推进了 SGLang 测试基础设施的完善和一致性保障。