执行摘要
将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3,并调整精度阈值和并行度。
根据 PR body 描述,Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11,原因是 chat template wrapping,这阻碍了评估统一流程(关联 Issue #21667)。因此,需要切换到 Llama-3.1 EAGLE3 以恢复正常评估分数,确保测试通过。
对于技术管理者和工程师,本 PR 值得快速浏览以了解测试配置的更新。关注点包括:模型切换的背景(Llama-2 分数下降)、新阈值设定的依据(CI 分数 0.775 > 0.74),以及并行度增加对测试性能的潜在优化。
由于本 PR 没有收到任何 review 评论,因此无讨论内容可提炼。
参与讨论