执行摘要
本PR修复了SGLang仓库夜间测试的多个不稳定和配置问题,包括取消不稳定测试注册、修复导入失败、调整精度阈值和更新测试模型,旨在提升CI流程的可靠性。
功能与动机
动机源于测试套件中的不稳定性和硬件兼容性问题。PR body明确指出:"Unregister test_lora_qwen3.py for cuda, since it's flaky and has been covered by some other tests... Fix register_custom_op import failure on hardware other than cuda... Lower threshold for nemotron 3 super nightly test... Skip qwen3 cp test on b200... Change dpsk-r1-fp4 nightly test to dpsk-v3-fp4 test"。
实现拆解
- deepseek_v2.py: 调整import语句,确保
register_custom_op只在CUDA条件下导入,避免非CUDA硬件失败。
python
from sglang.srt.utils.custom_op import register_custom_op if _use_aiter:
- test_nvidia_nemotron_3_super_nightly.py: 将
GSM8K_BASELINE阈值从0.96降至0.935。
python
-GSM8K_BASELINE = 0.96
+GSM8K_BASELINE = 0.935
- test_qwen3_235b.py: 添加
@unittest.skipIf(is_blackwell_system(), ...)装饰器跳过B200上的cp测试。
- test_lora_qwen3.py: 移除
register_cuda_ci调用,取消CUDA测试注册。
- test_dpsk_v3_fp4_4gpu_perf.py: 重命名文件并更新配置,使用DeepSeek V3 FP4模型替换R1版本。
评论区精华
无review评论,PR由作者直接合并,表明变更被视为小修复且无争议。
风险与影响
风险:
- 导入修复可能引入条件依赖错误,需验证非CUDA硬件路径。
- 阈值降低可能掩盖模型性能问题,需监控实际精度。
- 跳过B200测试可能遗漏硬件兼容性问题。
- 取消LoRA测试注册可能减少覆盖,需确认其他测试充分。
影响:
- 对用户无直接影响。
- 提升CI稳定性,减少资源浪费。
- 团队需适应测试配置变化。
关联脉络
与近期PR相关:
- PR #22137: 删除不稳定测试,类似策略减少CI flaky。
- PR #22100: 调整测试阈值,同为修复不稳定测试。
- PR #22141: 优化CI工作流,提升测试效率。
这些PR共同反映了团队在持续改进测试可靠性和CI流程。
参与讨论