执行摘要
- 一句话:降低GPT-OSS 4GPU测试的准确度阈值,减少CI误报。
- 推荐动作:该PR变更简单直接,无需深入精读。值得关注的是其基于数据的阈值调整方法:通过分析历史运行数据(40次调度运行)确定合理阈值,可作为类似测试稳定性优化的参考案例。
功能与动机
根据PR body中的分析,GPT-OSS 4GPU测试在B200和H100 runner上均表现出21%的失败率(40次调度运行),测试得分在0.55-0.67之间自然波动。0.60的阈值过于严格,导致大量误报(例如链接中的失败示例)。降低阈值至0.58可在保留检测真实回归能力的同时,提供足够的容错空间。
实现拆解
仅修改一个测试文件中的两个测试函数:
test_bf16_120b:将expected_score_of_reasoning_effort的"low"值从0.60改为0.58。
test_mxfp4_120b:进行相同的阈值调整。
所有变更集中在test/registered/4-gpu-models/test_gpt_oss_4gpu.py文件中,未涉及任何逻辑代码或配置变更。
关键文件:
test/registered/4-gpu-models/test_gpt_oss_4gpu.py(模块 CI测试): 唯一被修改的文件,包含两个测试用例的阈值调整,直接影响CI测试行为。
关键符号:test_bf16_120b, test_mxfp4_120b
评论区精华
该PR没有review评论或讨论,仅有一次提交历史显示阈值从0.60先降至0.59,再进一步降至0.58,表明作者基于数据持续优化阈值选择。
风险与影响
-
风险:风险极低:
- 无回归风险:仅修改测试阈值,不触及任何功能代码。
- 性能与安全:无影响。
- 兼容性:无影响。
唯一潜在风险是阈值降低可能掩盖真实性能回归,但PR body中展示的数据分析(得分趋势0.55-0.67)支持0.58阈值仍能有效检测显著下降。
-
影响:影响范围有限:
- 对用户:无直接影响。
- 对系统:减少CI误报,提升测试稳定性,降低维护负担。
- 对团队:工程师将看到更可靠的CI结果,减少因测试波动导致的干扰。
影响程度为低,仅调整测试阈值。
-
风险标记:阈值调整可能掩盖真实回归
关联脉络
- PR #22346 [CI] Set RUNAI_STREAMER_MEMORY_LIMIT=0 for stage-b-test-1-gpu-small: 同属CI优化类别,关注测试稳定性和资源管理。
- PR #22292 [CI] Fix stage-b-test-1-gpu-large (0) timeout by reordering LoRA tests and using tokenizer from cache: 同属CI优化,通过调整测试顺序和加载策略解决稳定性问题。
- PR #22301 Only upload CUDA coredumps on test failure: 同属CI优化,减少资源浪费,提升效率。
参与讨论