#22237 [CI] Relax gpt-oss 4GPU accuracy threshold from 0.60 to 0.58

原始 PR 作者 alisonshao 合并时间 2026-04-08 17:20 文件变更 1 提交数 2 评论 1 代码增减 +2 / -2

执行摘要

降低 GPT-OSS 4GPU 测试的准确度阈值，减少 CI 误报。

根据PR body中的分析，GPT-OSS 4GPU测试在B200和H100 runner上均表现出21%的失败率（40次调度运行），测试得分在0.55-0.67之间自然波动。0.60的阈值过于严格，导致大量误报（例如链接中的失败示例）。降低阈值至0.58可在保留检测真实回归能力的同时，提供足够的容错空间。

该PR变更简单直接，无需深入精读。值得关注的是其基于数据的阈值调整方法：通过分析历史运行数据（40次调度运行）确定合理阈值，可作为类似测试稳定性优化的参考案例。

讨论亮点

该PR没有review评论或讨论，仅有一次提交历史显示阈值从0.60先降至0.59，再进一步降至0.58，表明作者基于数据持续优化阈值选择。

实现拆解

仅修改一个测试文件中的两个测试函数：

test_bf16_120b：将expected_score_of_reasoning_effort的"low"值从0.60改为0.58。
test_mxfp4_120b：进行相同的阈值调整。
所有变更集中在test/registered/4-gpu-models/test_gpt_oss_4gpu.py文件中，未涉及任何逻辑代码或配置变更。

文件	模块	状态	重要度
`test/registered/4-gpu-models/test_gpt_oss_4gpu.py`	CI 测试	modified	2.0

关键符号

test_bf16_120b test_mxfp4_120b

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低：

无回归风险：仅修改测试阈值，不触及任何功能代码。
性能与安全：无影响。
兼容性：无影响。
唯一潜在风险是阈值降低可能掩盖真实性能回归，但PR body中展示的数据分析（得分趋势0.55-0.67）支持0.58阈值仍能有效检测显著下降。

影响范围有限：

对用户：无直接影响。
对系统：减少CI误报，提升测试稳定性，降低维护负担。
对团队：工程师将看到更可靠的CI结果，减少因测试波动导致的干扰。
影响程度为低，仅调整测试阈值。

阈值调整可能掩盖真实回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：降低GPT-OSS 4GPU测试的准确度阈值，减少CI误报。
推荐动作：该PR变更简单直接，无需深入精读。值得关注的是其基于数据的阈值调整方法：通过分析历史运行数据（40次调度运行）确定合理阈值，可作为类似测试稳定性优化的参考案例。

功能与动机

实现拆解

仅修改一个测试文件中的两个测试函数：

test_bf16_120b：将expected_score_of_reasoning_effort的"low"值从0.60改为0.58。
test_mxfp4_120b：进行相同的阈值调整。
所有变更集中在test/registered/4-gpu-models/test_gpt_oss_4gpu.py文件中，未涉及任何逻辑代码或配置变更。

关键文件：

test/registered/4-gpu-models/test_gpt_oss_4gpu.py（模块 CI测试）: 唯一被修改的文件，包含两个测试用例的阈值调整，直接影响CI测试行为。

关键符号：test_bf16_120b, test_mxfp4_120b

评论区精华

该PR没有review评论或讨论，仅有一次提交历史显示阈值从0.60先降至0.59，再进一步降至0.58，表明作者基于数据持续优化阈值选择。

暂无高价值评论线程

风险与影响

风险：风险极低：
1. 无回归风险：仅修改测试阈值，不触及任何功能代码。
2. 性能与安全：无影响。
3. 兼容性：无影响。
  唯一潜在风险是阈值降低可能掩盖真实性能回归，但PR body中展示的数据分析（得分趋势0.55-0.67）支持0.58阈值仍能有效检测显著下降。
影响：影响范围有限：
1. 对用户：无直接影响。
2. 对系统：减少CI误报，提升测试稳定性，降低维护负担。
3. 对团队：工程师将看到更可靠的CI结果，减少因测试波动导致的干扰。
  影响程度为低，仅调整测试阈值。
风险标记：阈值调整可能掩盖真实回归

关联脉络

PR #22346 [CI] Set RUNAI_STREAMER_MEMORY_LIMIT=0 for stage-b-test-1-gpu-small: 同属CI优化类别，关注测试稳定性和资源管理。
PR #22292 [CI] Fix stage-b-test-1-gpu-large (0) timeout by reordering LoRA tests and using tokenizer from cache: 同属CI优化，通过调整测试顺序和加载策略解决稳定性问题。
PR #22301 Only upload CUDA coredumps on test failure: 同属CI优化，减少资源浪费，提升效率。

#22237 [CI] Relax gpt-oss 4GPU accuracy threshold from 0.60 to 0.58

执行摘要

降低 GPT-OSS 4GPU 测试的准确度阈值，减少 CI 误报。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论