Prhub

#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-09 08:04 文件变更 3 提交数 2 评论 2 代码增减 +82 / -6

执行摘要

新增 GLM-5.1 FP8 夜间测试并更新 Qwen3.5 模型配置,扩展大模型测试覆盖。

根据PR body描述,主要动机是扩展夜间测试覆盖范围,为H200/B200 GPU集群添加GLM-5.1 FP8模型的测试,并更新现有测试以使用最新的模型版本(如GLM-5.1和Qwen3.5 FP8)。PR body中明确提到“Add GLM-5.1 FP8 nightly test for H200/B200”和“Update Qwen3.5 to FP8 model”,表明这是为了保持测试与模型演进的同步。

该PR值得关注,特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计,以及DP-attention在Qwen3.5测试中的集成方式,这反映了项目对多GPU并行策略的测试演进。同时,注意提交历史中的回退操作,了解模型命名一致性的重要性。

讨论亮点

由于review_comments_count为0,没有review讨论记录。从提交历史看,第二个提交“Revert GLM-5.1 naming in test_glm5_nvfp4.py”暗示可能存在未记录的讨论或发现,即GLM-5.1 NVFP4模型不存在,因此回退了相关命名更改,但具体讨论内容未提供。

实现拆解

实现分为三个部分:

1) 新增文件test/registered/8-gpu-models/test_glm_51_fp8.py,定义GLM-5.1 FP8在H200/B200上的测试,包含三种并行配置变体(TP8、TP8+DP8、TP8+DP8+MTP),使用gsm8k数据集进行准确性和性能测试。
2) 修改test/registered/8-gpu-models/test_qwen35.py,将模型路径更新为FP8版本(Qwen/Qwen3.5-397B-A17B-FP8),并添加DP-attention变体(TP8+DP8和TP8+DP8+MTP),集成自PR #22288的变更。
3) 修改test/registered/gb300/test_glm5_fp8.py,将模型路径和测试名称从GLM-5更新为GLM-5.1,以反映模型版本升级。

文件 模块 状态 重要度
test/registered/8-gpu-models/test_glm_51_fp8.py CI 测试 added 8.0
test/registered/8-gpu-models/test_qwen35.py CI 测试 modified 6.0
test/registered/gb300/test_glm5_fp8.py CI 测试 modified 4.0

关键符号

TestGlm51Fp8.test_glm51_fp8 TestQwen35.test_qwen35 TestGlm5Fp8.test_glm5_fp8

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

GLM-5.1 NVFP4 模型命名回退 正确性

从提交历史推断,可能发现 GLM-5.1 NVFP4 模型不存在,导致命名不一致。

结论:回退了 test_glm5_nvfp4.py 中的 GLM-5.1 命名更改,以保持模型名称准确性。 · 已解决

风险与影响

主要风险包括:

1) 测试依赖外部模型仓库(如zai-org/GLM-5.1-FP8和Qwen/Qwen3.5-397B-A17B-FP8),若模型不可访问或变更可能导致CI失败。
2) 新增的DP-attention变体(--enable-dp-attention)可能引入未覆盖的代码路径,增加测试复杂度。
3) 夜间测试时间较长(est_time=1800秒),可能影响CI资源分配和反馈周期。
4) 模型版本更新(GLM-5到GLM-5.1)可能带来行为差异,需确保测试阈值(如baseline_accuracy=0.92)仍然适用。

对用户无直接影响,主要影响CI系统和开发团队:

1) 扩展测试覆盖至GLM-5.1 FP8模型和Qwen3.5 FP8版本,提升模型兼容性验证。
2) 引入DP-attention变体测试,增强对数据并行注意力机制的质量保障。
3) 更新模型名称确保测试与最新模型版本同步,避免因模型过时而产生误导性结果。
4) 可能增加夜间CI执行时间和资源消耗,但限于特定测试套件(nightly-8-gpu-common)。

外部模型依赖 新增并行变体 测试时间增长

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论