Prhub

#22237 [CI] Relax gpt-oss 4GPU accuracy threshold from 0.60 to 0.58

sgl-project/sglang · 作者 alisonshao · 合并时间 2026-04-08 17:20

分析状态 已生成
文件变更 1提交数 2 · 评论 1
代码增减 +2 / -2
run-ci test

执行摘要

降低 GPT-OSS 4GPU 测试的准确度阈值,减少 CI 误报。

根据PR body中的分析,GPT-OSS 4GPU测试在B200和H100 runner上均表现出21%的失败率(40次调度运行),测试得分在0.55-0.67之间自然波动。0.60的阈值过于严格,导致大量误报(例如链接中的失败示例)。降低阈值至0.58可在保留检测真实回归能力的同时,提供足够的容错空间。

该PR变更简单直接,无需深入精读。值得关注的是其基于数据的阈值调整方法:通过分析历史运行数据(40次调度运行)确定合理阈值,可作为类似测试稳定性优化的参考案例。

讨论亮点

该PR没有review评论或讨论,仅有一次提交历史显示阈值从0.60先降至0.59,再进一步降至0.58,表明作者基于数据持续优化阈值选择。

实现拆解

仅修改一个测试文件中的两个测试函数:

  1. test_bf16_120b:将expected_score_of_reasoning_effort"low"值从0.60改为0.58。
  2. test_mxfp4_120b:进行相同的阈值调整。
    所有变更集中在test/registered/4-gpu-models/test_gpt_oss_4gpu.py文件中,未涉及任何逻辑代码或配置变更。
文件 模块 状态 重要度
test/registered/4-gpu-models/test_gpt_oss_4gpu.py CI 测试 modified 2.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

test_bf16_120b test_mxfp4_120b

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:

  1. 无回归风险:仅修改测试阈值,不触及任何功能代码。
  2. 性能与安全:无影响。
  3. 兼容性:无影响。
    唯一潜在风险是阈值降低可能掩盖真实性能回归,但PR body中展示的数据分析(得分趋势0.55-0.67)支持0.58阈值仍能有效检测显著下降。

影响范围有限:

  1. 对用户:无直接影响。
  2. 对系统:减少CI误报,提升测试稳定性,降低维护负担。
  3. 对团队:工程师将看到更可靠的CI结果,减少因测试波动导致的干扰。
    影响程度为低,仅调整测试阈值。
阈值调整可能掩盖真实回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:降低GPT-OSS 4GPU测试的准确度阈值,减少CI误报。
  • 推荐动作:该PR变更简单直接,无需深入精读。值得关注的是其基于数据的阈值调整方法:通过分析历史运行数据(40次调度运行)确定合理阈值,可作为类似测试稳定性优化的参考案例。

功能与动机

根据PR body中的分析,GPT-OSS 4GPU测试在B200和H100 runner上均表现出21%的失败率(40次调度运行),测试得分在0.55-0.67之间自然波动。0.60的阈值过于严格,导致大量误报(例如链接中的失败示例)。降低阈值至0.58可在保留检测真实回归能力的同时,提供足够的容错空间。

实现拆解

仅修改一个测试文件中的两个测试函数:

  1. test_bf16_120b:将expected_score_of_reasoning_effort"low"值从0.60改为0.58。
  2. test_mxfp4_120b:进行相同的阈值调整。
    所有变更集中在test/registered/4-gpu-models/test_gpt_oss_4gpu.py文件中,未涉及任何逻辑代码或配置变更。

关键文件:

  • test/registered/4-gpu-models/test_gpt_oss_4gpu.py(模块 CI测试): 唯一被修改的文件,包含两个测试用例的阈值调整,直接影响CI测试行为。

关键符号:test_bf16_120b, test_mxfp4_120b

评论区精华

该PR没有review评论或讨论,仅有一次提交历史显示阈值从0.60先降至0.59,再进一步降至0.58,表明作者基于数据持续优化阈值选择。

  • 暂无高价值评论线程

风险与影响

  • 风险:风险极低:

    1. 无回归风险:仅修改测试阈值,不触及任何功能代码。
    2. 性能与安全:无影响。
    3. 兼容性:无影响。
      唯一潜在风险是阈值降低可能掩盖真实性能回归,但PR body中展示的数据分析(得分趋势0.55-0.67)支持0.58阈值仍能有效检测显著下降。
  • 影响:影响范围有限:

    1. 对用户:无直接影响。
    2. 对系统:减少CI误报,提升测试稳定性,降低维护负担。
    3. 对团队:工程师将看到更可靠的CI结果,减少因测试波动导致的干扰。
      影响程度为低,仅调整测试阈值。
  • 风险标记:阈值调整可能掩盖真实回归

关联脉络

  • PR #22346 [CI] Set RUNAI_STREAMER_MEMORY_LIMIT=0 for stage-b-test-1-gpu-small: 同属CI优化类别,关注测试稳定性和资源管理。
  • PR #22292 [CI] Fix stage-b-test-1-gpu-large (0) timeout by reordering LoRA tests and using tokenizer from cache: 同属CI优化,通过调整测试顺序和加载策略解决稳定性问题。
  • PR #22301 Only upload CUDA coredumps on test failure: 同属CI优化,减少资源浪费,提升效率。

参与讨论