执行摘要
此PR通过放宽多个测试文件的阈值(如epsilon、问题数量、精度),减少CI不稳定性,但可能降低测试严格性。适合快速浏览以了解CI调整。
功能与动机
动机是解决CI测试不稳定(flaky)问题,通过放宽阈值来减少失败率。PR标题直接表明"[CI] Relax several thresholds in flaky CIs"。
实现拆解
修改涉及三个测试文件:
test/registered/lora/test_lora_moe_vllm_sgl_logprob_diff.py:将epsilon值从1e-4增加到2e-4,允许更大logprob差异。
test/registered/quant/test_deepseek_v32_fp4_4gpu.py:
- 将
num_questions和parallel从1319减少到500,降低测试负载。
- 精度阈值从0.935降低到0.93。
test/registered/quant/test_deepseek_v32_fp4_mtp_4gpu.py:精度阈值从0.94降低到0.93。
评论区精华
review评论来自gemini-code-assist[bot],建议改进代码结构:
"This epsilon value is hardcoded. To improve readability and make it easier to adjust in the future, consider defining it as a constant at the module level."
"The test_a_gsm8k method is duplicated... consider refactoring the common logic into a helper function or a mixin."
未引发人类讨论,建议未采纳。
风险与影响
风险:精度阈值降低可能掩盖模型性能退化;问题数量减少可能影响测试覆盖率;重复代码增加维护成本。
影响:对CI系统,提高构建成功率但降低测试质量;对团队,简化流程但需监控测试有效性。
关联脉络
与本PR相关的历史PR包括:
-
21485:删除冗余DeepSeek V3 FP4测试,同为优化CI负担。
-
21516:调整测试超时,类似CI稳定性改进。
-
21547:注册测试文件,涉及测试基础设施调整。
这些PR共同反映团队在持续优化CI流程以减少不稳定因素。
参与讨论