Prhub

#22288 [CI] Update nightly test models for H200/B200

原始 PR 作者 Kangyan-Zhou 合并时间 2026-04-08 06:44 文件变更 5 提交数 4 评论 1 代码增减 +13 / -67

执行摘要

更新 H200/B200 夜间测试套件,移除旧模型并改用 Qwen3.5 FP8 权重。

根据PR body描述,目的是精简夜间测试套件,移除已被新模型替代的旧测试(如GLM-5替代GLM-4.6,DeepSeek-V3.2替代V3.1),并更新到更现代的模型版本。使用Qwen3.5 FP8权重可以提高测试效率和代表性,适配H200/B200硬件。

建议测试和DevOps团队审阅此变更,以确保夜间测试覆盖仍满足质量要求。对于工程师,值得关注Qwen3.5 FP8权重和DP-attention变体的测试配置,可作为模型部署和性能优化的参考。

讨论亮点

本PR没有收到任何review评论,由作者直接合并,因此无讨论记录。

实现拆解

实现涉及五个测试文件的修改:

  1. test_deepseek_v31.pytest_glm_46_fp8.pytest_qwen3_235b.py:移除register_cuda_ci调用,添加'Manual-only'注释,使其从nightly套件中取消注册。
  2. test_glm_46.py:被完全删除,因为GLM-4.6测试被GLM-5替代。
  3. test_qwen35.py:更新模型路径为'Qwen/Qwen3.5-397B-A17B-FP8',并引入两个新变体:TP8+DP8和TP8+DP8+MTP,以测试DP-attention功能。
文件 模块 状态 重要度
test/registered/8-gpu-models/test_qwen35.py 测试套件 modified 6.0
test/registered/8-gpu-models/test_glm_46.py 测试套件 removed 4.0
test/registered/8-gpu-models/test_deepseek_v31.py 测试套件 modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

TestQwen35.test_qwen35 TestDeepSeekV31.test_deepseek_v31 TestGLM46FP8.test_glm_46_fp8

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险包括:

  • 测试覆盖减少:移除自动测试可能降低对旧模型的回归检测,尽管保留为手动测试。
  • 权重变更风险:切换到FP8权重可能影响准确性测试的基准,需要验证新权重通过现有测试。
  • 新配置风险:添加的DP-attention变体可能未充分测试,引入潜在性能或正确性问题。

影响分析:

  • 对用户:无直接影响,这是内部CI变更。
  • 对系统:夜间测试套件将运行更少的自动测试,可能减少CI资源消耗和运行时间。
  • 对团队:测试工程师需要调整测试策略,确保手动测试定期执行,并关注新变体的测试结果。
测试覆盖减少 权重变更风险 新配置未充分测试

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR更新了H200/B200 GPU的夜间测试套件,移除了GLM-4.6、DeepSeek-V3.1和Qwen3-235B的自动测试,将其转为手动执行,同时将Qwen3.5测试切换为FP8权重并添加DP-attention变体。变更旨在优化测试效率并反映最新模型支持,对内部CI流程有中等影响。

功能与动机

动机是精简夜间测试套件,移除已被新模型替代的旧测试(如GLM-5替代GLM-4.6,DeepSeek-V3.2替代V3.1),并更新到更现代的模型版本。使用FP8权重可以提高测试的效率和代表性,适配H200/B200硬件。

实现拆解

实现涉及五个测试文件的修改:

  • test_deepseek_v31.pytest_glm_46_fp8.pytest_qwen3_235b.py:移除register_cuda_ci调用,添加"Manual-only"注释,使其从nightly套件中取消注册。
  • test_glm_46.py:被完全删除。
  • test_qwen35.py:更新模型路径为Qwen/Qwen3.5-397B-A17B-FP8,并引入新变体:
    python variants = [ ModelLaunchSettings(..., variant="TP8+DP8"), ModelLaunchSettings(..., variant="TP8+DP8+MTP") ]

评论区精华

本PR没有收到任何review评论,由作者直接合并,因此无讨论记录。

风险与影响

风险

  • 测试覆盖减少:移除自动测试可能降低回归检测能力。
  • 权重变更风险:FP8权重可能影响准确性测试基准。
  • 新配置风险:DP-attention变体可能未充分测试。

影响

  • 对用户无直接影响。
  • 系统上,夜间测试套件运行更少测试,节省CI资源。
  • 团队需调整测试策略,确保手动测试定期执行。

关联脉络

与历史PR关联:

  • PR #22267:类似地将测试移至夜间套件,反映测试策略调整趋势。
  • PR #21669:涉及Qwen3.5 FP8夜间性能测试,显示对该模型的持续关注。

参与讨论