#22136 [CI] Lower GSM8K baselines for B200 nightly after eval unification
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-23 13:30
测试
重要性 4.34
洞察度 5.00
修复B200夜间测试因评估统一导致的GSM8K准确性基线问题。
该PR值得快速浏览,以了解评估统一后的测试适配模式;重点关注`AccuracyTestParams`扩展`api`字段的设计,以及如何通过配置修复因评估方法变更导致的测试失败。