Prhub

#21794 Switch MooncakeSpec to EAGLE3 + Llama-3.1

原始 PR 作者 hnyls2002 合并时间 2026-04-01 08:12 文件变更 1 提交数 3 评论 6 代码增减 +7 / -6

执行摘要

将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3,并调整精度阈值和并行度。

根据 PR body 描述,Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11,原因是 chat template wrapping,这阻碍了评估统一流程(关联 Issue #21667)。因此,需要切换到 Llama-3.1 EAGLE3 以恢复正常评估分数,确保测试通过。

对于技术管理者和工程师,本 PR 值得快速浏览以了解测试配置的更新。关注点包括:模型切换的背景(Llama-2 分数下降)、新阈值设定的依据(CI 分数 0.775 > 0.74),以及并行度增加对测试性能的潜在优化。

讨论亮点

由于本 PR 没有收到任何 review 评论,因此无讨论内容可提炼。

实现拆解

实现集中在单个测试文件 test/registered/disaggregation/test_disaggregation_basic.py 中的 TestDisaggregationMooncakeSpec 类。关键改动点包括:

  1. 模型常量替换:将 DEFAULT_TARGET_MODEL_EAGLEDEFAULT_DRAFT_MODEL_EAGLE 分别替换为 DEFAULT_TARGET_MODEL_EAGLE3DEFAULT_DRAFT_MODEL_EAGLE3
  2. 添加参数:在 spec_args 列表中添加 --dtype=float16,以适应 EAGLE3 + Llama-3.1 的精度要求。
  3. 调整阈值:在 test_gsm8k 方法中,将断言阈值从 0.20 修改为 0.74。
  4. 增加并行度:将 parallel 参数从 2 改为 128,以提升测试效率。
文件 模块 状态 重要度
test/registered/disaggregation/test_disaggregation_basic.py test/disaggregation modified 7.0

关键符号

setUpClass test_gsm8k

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,主要集中在测试层面:

  • 阈值调整风险:新阈值 0.74 基于 CI 分数 ~0.77 设定,但可能因环境变化导致 flaky 测试。
  • 模型兼容性:切换到 EAGLE3 + Llama-3.1 并添加 --dtype=float16,需确保模型和参数在测试环境中正确工作。
  • 性能影响:并行线程增加到 128 可能增加测试资源消耗,但影响局限于 CI 环境。

影响范围有限:

  • 用户影响:无直接影响,用户不会感知到此变更。
  • 系统影响:仅影响 CI 测试流程,确保测试通过以支持评估统一。
  • 团队影响:简化了测试维护,避免因旧模型问题导致的 CI 失败。
CI 测试阈值调整 新模型依赖变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论