#22288 [CI] Update nightly test models for H200/B200

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-08 06:44 文件变更 5 提交数 4 评论 1 代码增减 +13 / -67

执行摘要

更新 H200/B200 夜间测试套件，移除旧模型并改用 Qwen3.5 FP8 权重。

根据PR body描述，目的是精简夜间测试套件，移除已被新模型替代的旧测试（如GLM-5替代GLM-4.6，DeepSeek-V3.2替代V3.1），并更新到更现代的模型版本。使用Qwen3.5 FP8权重可以提高测试效率和代表性，适配H200/B200硬件。

建议测试和DevOps团队审阅此变更，以确保夜间测试覆盖仍满足质量要求。对于工程师，值得关注Qwen3.5 FP8权重和DP-attention变体的测试配置，可作为模型部署和性能优化的参考。

讨论亮点

本PR没有收到任何review评论，由作者直接合并，因此无讨论记录。

实现拆解

实现涉及五个测试文件的修改：

test_deepseek_v31.py、test_glm_46_fp8.py、test_qwen3_235b.py：移除register_cuda_ci调用，添加'Manual-only'注释，使其从nightly套件中取消注册。
test_glm_46.py：被完全删除，因为GLM-4.6测试被GLM-5替代。
test_qwen35.py：更新模型路径为'Qwen/Qwen3.5-397B-A17B-FP8'，并引入两个新变体：TP8+DP8和TP8+DP8+MTP，以测试DP-attention功能。

文件	模块	状态	重要度
`test/registered/8-gpu-models/test_qwen35.py`	测试套件	modified	6.0
`test/registered/8-gpu-models/test_glm_46.py`	测试套件	removed	4.0
`test/registered/8-gpu-models/test_deepseek_v31.py`	测试套件	modified	4.0

关键符号

TestQwen35.test_qwen35 TestDeepSeekV31.test_deepseek_v31 TestGLM46FP8.test_glm_46_fp8

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险包括：

测试覆盖减少：移除自动测试可能降低对旧模型的回归检测，尽管保留为手动测试。
权重变更风险：切换到FP8权重可能影响准确性测试的基准，需要验证新权重通过现有测试。
新配置风险：添加的DP-attention变体可能未充分测试，引入潜在性能或正确性问题。

影响分析：

对用户：无直接影响，这是内部CI变更。
对系统：夜间测试套件将运行更少的自动测试，可能减少CI资源消耗和运行时间。
对团队：测试工程师需要调整测试策略，确保手动测试定期执行，并关注新变体的测试结果。

测试覆盖减少权重变更风险新配置未充分测试

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR更新了H200/B200 GPU的夜间测试套件，移除了GLM-4.6、DeepSeek-V3.1和Qwen3-235B的自动测试，将其转为手动执行，同时将Qwen3.5测试切换为FP8权重并添加DP-attention变体。变更旨在优化测试效率并反映最新模型支持，对内部CI流程有中等影响。

功能与动机

动机是精简夜间测试套件，移除已被新模型替代的旧测试（如GLM-5替代GLM-4.6，DeepSeek-V3.2替代V3.1），并更新到更现代的模型版本。使用FP8权重可以提高测试的效率和代表性，适配H200/B200硬件。

实现拆解

实现涉及五个测试文件的修改：

test_deepseek_v31.py、test_glm_46_fp8.py、test_qwen3_235b.py：移除register_cuda_ci调用，添加"Manual-only"注释，使其从nightly套件中取消注册。
test_glm_46.py：被完全删除。

test_qwen35.py：更新模型路径为Qwen/Qwen3.5-397B-A17B-FP8，并引入新变体：

variants = [
    ModelLaunchSettings(..., variant="TP8+DP8"),
    ModelLaunchSettings(..., variant="TP8+DP8+MTP")
]

评论区精华

本PR没有收到任何review评论，由作者直接合并，因此无讨论记录。

风险与影响

风险：

测试覆盖减少：移除自动测试可能降低回归检测能力。
权重变更风险：FP8权重可能影响准确性测试基准。
新配置风险：DP-attention变体可能未充分测试。

影响：

对用户无直接影响。
系统上，夜间测试套件运行更少测试，节省CI资源。
团队需调整测试策略，确保手动测试定期执行。

关联脉络

与历史PR关联：

PR #22267：类似地将测试移至夜间套件，反映测试策略调整趋势。
PR #21669：涉及Qwen3.5 FP8夜间性能测试，显示对该模型的持续关注。

#22288 [CI] Update nightly test models for H200/B200

执行摘要

更新 H200/B200 夜间测试套件，移除旧模型并改用 Qwen3.5 FP8 权重。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论