#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-09 08:04 文件变更 3 提交数 2 评论 2 代码增减 +82 / -6

执行摘要

新增 GLM-5.1 FP8 夜间测试并更新 Qwen3.5 模型配置，扩展大模型测试覆盖。

根据PR body描述，主要动机是扩展夜间测试覆盖范围，为H200/B200 GPU集群添加GLM-5.1 FP8模型的测试，并更新现有测试以使用最新的模型版本（如GLM-5.1和Qwen3.5 FP8）。PR body中明确提到“Add GLM-5.1 FP8 nightly test for H200/B200”和“Update Qwen3.5 to FP8 model”，表明这是为了保持测试与模型演进的同步。

该PR值得关注，特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计，以及DP-attention在Qwen3.5测试中的集成方式，这反映了项目对多GPU并行策略的测试演进。同时，注意提交历史中的回退操作，了解模型命名一致性的重要性。

讨论亮点

由于review_comments_count为0，没有review讨论记录。从提交历史看，第二个提交“Revert GLM-5.1 naming in test_glm5_nvfp4.py”暗示可能存在未记录的讨论或发现，即GLM-5.1 NVFP4模型不存在，因此回退了相关命名更改，但具体讨论内容未提供。

实现拆解

实现分为三个部分：

1) 新增文件test/registered/8-gpu-models/test_glm_51_fp8.py，定义GLM-5.1 FP8在H200/B200上的测试，包含三种并行配置变体（TP8、TP8+DP8、TP8+DP8+MTP），使用gsm8k数据集进行准确性和性能测试。
2) 修改test/registered/8-gpu-models/test_qwen35.py，将模型路径更新为FP8版本（Qwen/Qwen3.5-397B-A17B-FP8），并添加DP-attention变体（TP8+DP8和TP8+DP8+MTP），集成自PR #22288的变更。
3) 修改test/registered/gb300/test_glm5_fp8.py，将模型路径和测试名称从GLM-5更新为GLM-5.1，以反映模型版本升级。

文件	模块	状态	重要度
`test/registered/8-gpu-models/test_glm_51_fp8.py`	CI 测试	added	8.0
`test/registered/8-gpu-models/test_qwen35.py`	CI 测试	modified	6.0
`test/registered/gb300/test_glm5_fp8.py`	CI 测试	modified	4.0

关键符号

TestGlm51Fp8.test_glm51_fp8 TestQwen35.test_qwen35 TestGlm5Fp8.test_glm5_fp8

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

GLM-5.1 NVFP4 模型命名回退 正确性

从提交历史推断，可能发现 GLM-5.1 NVFP4 模型不存在，导致命名不一致。

结论：回退了 test_glm5_nvfp4.py 中的 GLM-5.1 命名更改，以保持模型名称准确性。 · 已解决

风险与影响

主要风险包括：

1) 测试依赖外部模型仓库（如zai-org/GLM-5.1-FP8和Qwen/Qwen3.5-397B-A17B-FP8），若模型不可访问或变更可能导致CI失败。
2) 新增的DP-attention变体（--enable-dp-attention）可能引入未覆盖的代码路径，增加测试复杂度。
3) 夜间测试时间较长（est_time=1800秒），可能影响CI资源分配和反馈周期。
4) 模型版本更新（GLM-5到GLM-5.1）可能带来行为差异，需确保测试阈值（如baseline_accuracy=0.92）仍然适用。

对用户无直接影响，主要影响CI系统和开发团队：

1) 扩展测试覆盖至GLM-5.1 FP8模型和Qwen3.5 FP8版本，提升模型兼容性验证。
2) 引入DP-attention变体测试，增强对数据并行注意力机制的质量保障。
3) 更新模型名称确保测试与最新模型版本同步，避免因模型过时而产生误导性结果。
4) 可能增加夜间CI执行时间和资源消耗，但限于特定测试套件（nightly-8-gpu-common）。

外部模型依赖新增并行变体测试时间增长

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR为sglang项目CI系统新增GLM-5.1 FP8模型的夜间测试，覆盖H200/B200 GPU集群的三种并行配置变体，同时更新Qwen3.5测试至FP8版本并集成数据并行注意力机制。这些变更扩展了大模型测试覆盖，确保CI与最新模型版本和并行策略同步，对开发团队验证模型兼容性和性能有积极影响，但需注意外部模型依赖和测试资源消耗的风险。

功能与动机

PR的主要目标是扩展夜间测试套件，以覆盖新发布的GLM-5.1 FP8模型和更新后的Qwen3.5 FP8模型。根据PR body，具体动机包括：

添加GLM-5.1 FP8测试：为H200/B200 GPU集群（nightly-8-gpu-common套件）新增测试，包含TP8、TP8+DP8和TP8+DP8+MTP三种变体，以验证不同并行配置下的模型表现。
更新模型引用：将GB300测试中的GLM-5模型升级至GLM-5.1，确保测试使用最新版本。
升级Qwen3.5测试：将模型路径更新为FP8精度版本（Qwen/Qwen3.5-397B-A17B-FP8），并集成来自PR #22288的DP-attention变体，增强测试覆盖。

这些变更是为了保持CI测试与模型演进的同步，防止因模型过时而产生测试缺口。

实现拆解

实现涉及三个测试文件的变更，按模块拆解如下：

文件路径	变更类型	关键改动	所属模块
`test/registered/8-gpu-models/test_glm_51_fp8.py`	新增	定义GLM-5.1 FP8测试类，包含三种并行变体：TP8、TP8+DP8、TP8+DP8+MTP，使用gsm8k数据集（baseline_accuracy=0.92）进行准确性和性能测试。	CI测试
`test/registered/8-gpu-models/test_qwen35.py`	修改	更新模型路径至FP8版本，添加DP-attention变体（`--dp=8 --enable-dp-attention`），扩展测试覆盖至TP8+DP8和TP8+DP8+MTP配置。	CI测试
`test/registered/gb300/test_glm5_fp8.py`	修改	将模型路径从`zai-org/GLM-5-FP8`更新为`zai-org/GLM-5.1-FP8`，同步更新测试名称和文档字符串。	CI测试

关键代码逻辑示例（来自test_glm_51_fp8.py）：

variants = [
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS,
        variant="TP8",
    ),
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS + dp_args,
        variant="TP8+DP8",
    ),
    ModelLaunchSettings(
        GLM_51_FP8_MODEL_PATH,
        tp_size=8,
        extra_args=COMMON_ARGS + dp_args + MTP_ARGS,
        variant="TP8+DP8+MTP",
        env={"SGLANG_ENABLE_SPEC_V2": "1"},
    ),
]

评论区精华

由于review_comments_count为0，没有记录review讨论。但从提交历史中可推断一个潜在讨论点：第二个提交“Revert GLM-5.1 naming in test_glm5_nvfp4.py”表明，在初始实现后可能发现GLM-5.1 NVFP4模型不存在，因此回退了相关命名更改以保持一致性。这提示了模型命名验证的重要性，但具体讨论细节未公开。

风险与影响

风险分析：

外部模型依赖：测试依赖Hugging Face模型仓库（如zai-org/GLM-5.1-FP8），若模型被删除或更新，可能导致CI失败。
新增并行变体复杂度：DP-attention变体（--enable-dp-attention）可能引入未充分测试的代码路径，增加调试难度。
测试时间增长：夜间测试估计时间较长（1800秒），可能影响CI资源利用和反馈速度。
模型版本差异：GLM-5到GLM-5.1的更新可能带来行为变化，需确保准确度阈值（0.92）仍适用。

影响分析：

对CI系统：扩展测试覆盖，提升对最新模型和并行策略的验证能力，但可能增加夜间CI负载。
对开发团队：提供更全面的模型兼容性反馈，有助于及早发现回归问题。
对用户：无直接影响，属于内部测试改进。

关联脉络

从近期历史PR看，本PR与多个CI测试优化PR相关：

PR #22288：Qwen3.5的DP-attention变体来源，表明这是功能集成的一部分。
PR #22346和#22237：同属CI测试调整，关注资源分配和准确度阈值，反映项目对测试稳定性和准确性的持续优化。
更广泛的趋势：近期PR（如#22400、#22395）显示项目正加强CI效率和覆盖，本PR延续了这一方向，专注于大模型测试的扩展和更新。

整体上，本PR是sglang项目CI测试演进的一部分，旨在确保测试套件与快速迭代的模型生态保持同步。

#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

执行摘要

新增 GLM-5.1 FP8 夜间测试并更新 Qwen3.5 模型配置，扩展大模型测试覆盖。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论