执行摘要
本PR更新了H200/B200 GPU的夜间测试套件,移除了GLM-4.6、DeepSeek-V3.1和Qwen3-235B的自动测试,将其转为手动执行,同时将Qwen3.5测试切换为FP8权重并添加DP-attention变体。变更旨在优化测试效率并反映最新模型支持,对内部CI流程有中等影响。
功能与动机
动机是精简夜间测试套件,移除已被新模型替代的旧测试(如GLM-5替代GLM-4.6,DeepSeek-V3.2替代V3.1),并更新到更现代的模型版本。使用FP8权重可以提高测试的效率和代表性,适配H200/B200硬件。
实现拆解
实现涉及五个测试文件的修改:
test_deepseek_v31.py、test_glm_46_fp8.py、test_qwen3_235b.py:移除register_cuda_ci调用,添加"Manual-only"注释,使其从nightly套件中取消注册。
test_glm_46.py:被完全删除。
test_qwen35.py:更新模型路径为Qwen/Qwen3.5-397B-A17B-FP8,并引入新变体:
python
variants = [
ModelLaunchSettings(..., variant="TP8+DP8"),
ModelLaunchSettings(..., variant="TP8+DP8+MTP")
]
评论区精华
本PR没有收到任何review评论,由作者直接合并,因此无讨论记录。
风险与影响
风险:
- 测试覆盖减少:移除自动测试可能降低回归检测能力。
- 权重变更风险:FP8权重可能影响准确性测试基准。
- 新配置风险:DP-attention变体可能未充分测试。
影响:
- 对用户无直接影响。
- 系统上,夜间测试套件运行更少测试,节省CI资源。
- 团队需调整测试策略,确保手动测试定期执行。
关联脉络
与历史PR关联:
- PR #22267:类似地将测试移至夜间套件,反映测试策略调整趋势。
- PR #21669:涉及Qwen3.5 FP8夜间性能测试,显示对该模型的持续关注。
参与讨论