#23099 Lower TestPiecewiseCudaGraphQwen25VL gsm8k threshold to 0.80
作者 hnyls2002 · 合并时间 2026-04-18 04:31
降低 Qwen2.5-VL 模型分段 CUDA 图测试的 GSM8K 精度阈值,缓解 CI 偶发失败。
该 PR 变更简单直接,主要价值在于其背后的数据分析方法。建议工程师快速浏览以了解测试阈值调整的决策过程,但无需深入代码细节。对于负责 CI 稳定性和测试策略的团队成员,可关注其如何利用历史数据量化方差并设定安全边际。