#22210 [CI] Relax transformers MMLU threshold from 0.65 to 0.64

原始 PR 作者 alisonshao 合并时间 2026-04-07 06:32 文件变更 1 提交数 1 评论 0 代码增减 +2 / -2

执行摘要

降低 Transformers 模型 MMLU 测试阈值从 0.65 到 0.64，解决 CI 不稳定性问题。

PR body和commit消息明确指出，test_transformers_models.py中的MMLU评估在CI环境中存在不稳定性（flaky），在0.65阈值边界上会失败，例如观察到得分0.640625。调整阈值是为了减少CI的误报失败，确保测试的可靠性。

这是一个简单的测试配置调整PR，无需深入阅读。值得关注的点是：这是典型的CI稳定性维护操作，反映了团队对测试flakiness的快速响应。建议后续关注相关模型的MMLU分数趋势，确保阈值调整不会掩盖真正的性能回归。

讨论亮点

review中只有gemini-code-assist[bot]的自动评论，确认了变更内容并表示没有反馈。没有人工review讨论，因此没有技术争议或设计权衡的讨论。

实现拆解

仅修改了test/registered/models/test_transformers_models.py文件中的两个类属性：

TestTransformersFallbackEndpoint类的mmlu_lower_bound从0.65改为0.64
TestTransformersFallbackTorchAO类的mmlu_lower_bound从0.65改为0.64
两个变更都只涉及数值调整，不改变测试逻辑或功能代码。

文件	模块	状态	重要度
`test/registered/models/test_transformers_models.py`	测试	modified	3.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险极低：

仅修改测试阈值，不涉及生产代码，无回归风险。
降低阈值可能掩盖模型性能的实际下降，但PR body指出这是针对CI不稳定性的调整，且从0.65到0.64的变化很小（1.5%相对变化）。
需要确保0.64阈值仍能有效捕获模型性能问题，但考虑到这是针对flaky测试的调整，风险可控。

影响范围有限：

对用户：无直接影响，这是内部测试配置调整。
对系统：无功能影响，仅影响测试通过标准。
对团队：减少CI失败噪音，提高开发效率，但需要监控后续测试结果以确保调整合理。

测试阈值调整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR将Transformers模型测试中的MMLU评估阈值从0.65降低到0.64，以解决CI环境中测试不稳定性导致的误报失败。这是一个纯粹的测试配置调整，不涉及任何功能代码变更，旨在提高CI的可靠性。

功能与动机

PR body和commit消息明确指出，test_transformers_models.py中的MMLU评估在CI环境中存在不稳定性（flaky），在0.65阈值边界上会失败，例如观察到得分0.640625。调整阈值是为了减少CI的误报失败，确保测试的可靠性。

实现拆解

仅修改了test/registered/models/test_transformers_models.py文件中的两个类属性：

TestTransformersFallbackEndpoint.mmlu_lower_bound：0.65 → 0.64
TestTransformersFallbackTorchAO.mmlu_lower_bound：0.65 → 0.64

这两个变更都只涉及数值调整，不改变测试逻辑或功能代码。

评论区精华

review中只有gemini-code-assist[bot]的自动评论，确认了变更内容并表示没有反馈。没有人工review讨论，因此没有技术争议或设计权衡的讨论。

风险与影响

风险分析：

仅修改测试阈值，不涉及生产代码，无回归风险。
降低阈值可能掩盖模型性能的实际下降，但PR body指出这是针对CI不稳定性的调整，且从0.65到0.64的变化很小（1.5%相对变化）。
需要确保0.64阈值仍能有效捕获模型性能问题，但考虑到这是针对flaky测试的调整，风险可控。

影响分析：

对用户：无直接影响，这是内部测试配置调整。
对系统：无功能影响，仅影响测试通过标准。
对团队：减少CI失败噪音，提高开发效率，但需要监控后续测试结果以确保调整合理。

关联脉络

从近期历史PR分析可见，本PR与以下PR有相似之处：

PR #22194 "[Qwen3-Specv2]: Fix flaky ci"：同样通过调整测试阈值（KL散度阈值）来修复CI不稳定性。
PR #22190 "Update test coverage report" 和 PR #22189 "Update test skills and guide"：同属测试相关PR，反映了团队对测试质量和稳定性的持续关注。

这表明团队在积极维护CI稳定性，通过阈值调整、测试规范更新等方式减少误报失败，提高开发效率。

#22210 [CI] Relax transformers MMLU threshold from 0.65 to 0.64

执行摘要

降低 Transformers 模型 MMLU 测试阈值从 0.65 到 0.64，解决 CI 不稳定性问题。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论