执行摘要
本PR为GLM-5模型添加CI测试,通过重命名现有测试文件并新增测试类,扩展了8-GPU测试套件。变更包括数据并行、张量并行和推测解码配置的准确性及速度基准测试,旨在增强模型测试覆盖,确保推理稳定性。
功能与动机
动机源于扩展CI测试以覆盖GLM-5模型的需求。PR标题直接指出“Add CI tests for GLM-5”,虽无详细描述,但从同仓库历史PR(如#21710涉及GLM-5性能基准)推断,此举旨在加强模型测试矩阵,预防回归。
实现拆解
实现集中在两个测试文件:
test/registered/8-gpu-models/test_dsa_models_basic.py:重命名自test_deepseek_v32_basic.py,添加TestGLM5DP和TestGLM5TP类,测试8-GPU DP和TP配置。
- 关键配置:模型路径
zai-org/GLM-5-FP8,超参数如--tp 8、--dp 8。
- 测试方法:
test_a_gsm8k(GSM8K准确性)和test_bs_1_speed(速度基准)。
test/registered/8-gpu-models/test_dsa_models_mtp.py:重命名自test_deepseek_v32_mtp.py,添加TestGLM5DPMTP和TestGLM5TPMTP类,支持EAGLE推测解码测试。
- 变更包括启用
SGLANG_ENABLE_SPEC_V2环境变量,调整内存分数至0.8。
评论区精华
无review评论,讨论为空。
风险与影响
风险:
- 测试阈值设置(如速度阈值40 token/s)可能不合理,导致CI误报。
- 配置调整(如
--mem-frac 0.8)可能影响测试稳定性。
- CI运行时间预估从360秒增至720秒,增加资源消耗。
影响:
- 正面:提升GLM-5模型测试覆盖,助益回归检测。
- 负面:新增测试可能延长CI流水线,但对用户无直接冲击。
关联脉络
从历史PR看:
-
21710 为AMD平台添加GLM-5-FP8夜间性能基准测试,与本PR共同扩展GLM-5测试生态。
-
22288 更新H200/B200测试模型,虽被撤销,但反映CI测试模型持续演进趋势。
本PR是SGLang测试基础设施常规扩展的一部分,强调对新兴模型如GLM-5的支持。
参与讨论