Prhub

#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

sgl-project/sglang · 作者 Kangyan-Zhou · 合并时间 2026-04-09 08:04

分析状态 已生成
文件变更 3提交数 2 · 评论 2
代码增减 +82 / -6
run-ci test blackwell

执行摘要

新增 GLM-5.1 FP8 夜间测试并更新 Qwen3.5 模型配置,扩展大模型测试覆盖。

根据PR body描述,主要动机是扩展夜间测试覆盖范围,为H200/B200 GPU集群添加GLM-5.1 FP8模型的测试,并更新现有测试以使用最新的模型版本(如GLM-5.1和Qwen3.5 FP8)。PR body中明确提到“Add GLM-5.1 FP8 nightly test for H200/B200”和“Update Qwen3.5 to FP8 model”,表明这是为了保持测试与模型演进的同步。

该PR值得关注,特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计,以及DP-attention在Qwen3.5测试中的集成方式,这反映了项目对多GPU并行策略的测试演进。同时,注意提交历史中的回退操作,了解模型命名一致性的重要性。

讨论亮点

由于review_comments_count为0,没有review讨论记录。从提交历史看,第二个提交“Revert GLM-5.1 naming in test_glm5_nvfp4.py”暗示可能存在未记录的讨论或发现,即GLM-5.1 NVFP4模型不存在,因此回退了相关命名更改,但具体讨论内容未提供。

实现拆解

实现分为三个部分:1) 新增文件test/registered/8-gpu-models/test_glm_51_fp8.py,定义GLM-5.1 FP8在H200/B200上的测试,包含三种并行配置变体(TP8、TP8+DP8、TP8+DP8+MTP),使用gsm8k数据集进行准确性和性能测试。2) 修改test/registered/8-gpu-models/test_qwen35.py,将模型路径更新为FP8版本(Qwen/Qwen3.5-397B-A17B-FP8),并添加DP-attention变体(TP8+DP8和TP8+DP8+MTP),集成自PR #22288的变更。3) 修改test/registered/gb300/test_glm5_fp8.py,将模型路径和测试名称从GLM-5更新为GLM-5.1,以反映模型版本升级。

文件 模块 状态 重要度
test/registered/8-gpu-models/test_glm_51_fp8.py CI 测试 added 8.0
test/registered/8-gpu-models/test_qwen35.py CI 测试 modified 6.0
test/registered/gb300/test_glm5_fp8.py CI 测试 modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

TestGlm51Fp8.test_glm51_fp8 TestQwen35.test_qwen35 TestGlm5Fp8.test_glm5_fp8

评论区精华

GLM-5.1 NVFP4 模型命名回退 正确性

从提交历史推断,可能发现 GLM-5.1 NVFP4 模型不存在,导致命名不一致。

结论:回退了 test_glm5_nvfp4.py 中的 GLM-5.1 命名更改,以保持模型名称准确性。 · 已解决

风险与影响

主要风险包括:1) 测试依赖外部模型仓库(如zai-org/GLM-5.1-FP8和Qwen/Qwen3.5-397B-A17B-FP8),若模型不可访问或变更可能导致CI失败。2) 新增的DP-attention变体(--enable-dp-attention)可能引入未覆盖的代码路径,增加测试复杂度。3) 夜间测试时间较长(est_time=1800秒),可能影响CI资源分配和反馈周期。4) 模型版本更新(GLM-5到GLM-5.1)可能带来行为差异,需确保测试阈值(如baseline_accuracy=0.92)仍然适用。

对用户无直接影响,主要影响CI系统和开发团队:1) 扩展测试覆盖至GLM-5.1 FP8模型和Qwen3.5 FP8版本,提升模型兼容性验证。2) 引入DP-attention变体测试,增强对数据并行注意力机制的质量保障。3) 更新模型名称确保测试与最新模型版本同步,避免因模型过时而产生误导性结果。4) 可能增加夜间CI执行时间和资源消耗,但限于特定测试套件(nightly-8-gpu-common)。

外部模型依赖 新增并行变体 测试时间增长

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR为sglang项目CI系统新增GLM-5.1 FP8模型的夜间测试,覆盖H200/B200 GPU集群的三种并行配置变体,同时更新Qwen3.5测试至FP8版本并集成数据并行注意力机制。这些变更扩展了大模型测试覆盖,确保CI与最新模型版本和并行策略同步,对开发团队验证模型兼容性和性能有积极影响,但需注意外部模型依赖和测试资源消耗的风险。

功能与动机

PR的主要目标是扩展夜间测试套件,以覆盖新发布的GLM-5.1 FP8模型和更新后的Qwen3.5 FP8模型。根据PR body,具体动机包括:

  • 添加GLM-5.1 FP8测试:为H200/B200 GPU集群(nightly-8-gpu-common套件)新增测试,包含TP8、TP8+DP8和TP8+DP8+MTP三种变体,以验证不同并行配置下的模型表现。
  • 更新模型引用:将GB300测试中的GLM-5模型升级至GLM-5.1,确保测试使用最新版本。
  • 升级Qwen3.5测试:将模型路径更新为FP8精度版本(Qwen/Qwen3.5-397B-A17B-FP8),并集成来自PR #22288的DP-attention变体,增强测试覆盖。

这些变更是为了保持CI测试与模型演进的同步,防止因模型过时而产生测试缺口。

实现拆解

实现涉及三个测试文件的变更,按模块拆解如下:

文件路径 变更类型 关键改动 所属模块
test/registered/8-gpu-models/test_glm_51_fp8.py 新增 定义GLM-5.1 FP8测试类,包含三种并行变体:TP8、TP8+DP8、TP8+DP8+MTP,使用gsm8k数据集(baseline_accuracy=0.92)进行准确性和性能测试。 CI测试
test/registered/8-gpu-models/test_qwen35.py 修改 更新模型路径至FP8版本,添加DP-attention变体(--dp=8 --enable-dp-attention),扩展测试覆盖至TP8+DP8和TP8+DP8+MTP配置。 CI测试
test/registered/gb300/test_glm5_fp8.py 修改 将模型路径从zai-org/GLM-5-FP8更新为zai-org/GLM-5.1-FP8,同步更新测试名称和文档字符串。 CI测试

关键代码逻辑示例(来自test_glm_51_fp8.py):

variants = [
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS,
        variant="TP8",
    ),
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS + dp_args,
        variant="TP8+DP8",
    ),
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS + dp_args + MTP_ARGS,
        variant="TP8+DP8+MTP",
        env={"SGLANG_ENABLE_SPEC_V2": "1"},
    ),
]

评论区精华

由于review_comments_count为0,没有记录review讨论。但从提交历史中可推断一个潜在讨论点:第二个提交“Revert GLM-5.1 naming in test_glm5_nvfp4.py”表明,在初始实现后可能发现GLM-5.1 NVFP4模型不存在,因此回退了相关命名更改以保持一致性。这提示了模型命名验证的重要性,但具体讨论细节未公开。

风险与影响

风险分析

  1. 外部模型依赖:测试依赖Hugging Face模型仓库(如zai-org/GLM-5.1-FP8),若模型被删除或更新,可能导致CI失败。
  2. 新增并行变体复杂度:DP-attention变体(--enable-dp-attention)可能引入未充分测试的代码路径,增加调试难度。
  3. 测试时间增长:夜间测试估计时间较长(1800秒),可能影响CI资源利用和反馈速度。
  4. 模型版本差异:GLM-5到GLM-5.1的更新可能带来行为变化,需确保准确度阈值(0.92)仍适用。

影响分析

  • 对CI系统:扩展测试覆盖,提升对最新模型和并行策略的验证能力,但可能增加夜间CI负载。
  • 对开发团队:提供更全面的模型兼容性反馈,有助于及早发现回归问题。
  • 对用户:无直接影响,属于内部测试改进。

关联脉络

从近期历史PR看,本PR与多个CI测试优化PR相关:

  • PR #22288:Qwen3.5的DP-attention变体来源,表明这是功能集成的一部分。
  • PR #22346和#22237:同属CI测试调整,关注资源分配和准确度阈值,反映项目对测试稳定性和准确性的持续优化。
  • 更广泛的趋势:近期PR(如#22400、#22395)显示项目正加强CI效率和覆盖,本PR延续了这一方向,专注于大模型测试的扩展和更新。

整体上,本PR是sglang项目CI测试演进的一部分,旨在确保测试套件与快速迭代的模型生态保持同步。

参与讨论