Prhub

#21794 Switch MooncakeSpec to EAGLE3 + Llama-3.1

原始 PR 作者 hnyls2002 合并时间 2026-04-01 08:12 文件变更 1 提交数 3 评论 6 代码增减 +7 / -6

执行摘要

将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3,并调整精度阈值和并行度。

根据 PR body 描述,Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11,原因是 chat template wrapping,这阻碍了评估统一流程(关联 Issue #21667)。因此,需要切换到 Llama-3.1 EAGLE3 以恢复正常评估分数,确保测试通过。

对于技术管理者和工程师,本 PR 值得快速浏览以了解测试配置的更新。关注点包括:模型切换的背景(Llama-2 分数下降)、新阈值设定的依据(CI 分数 0.775 > 0.74),以及并行度增加对测试性能的潜在优化。

讨论亮点

由于本 PR 没有收到任何 review 评论,因此无讨论内容可提炼。

实现拆解

实现集中在单个测试文件 test/registered/disaggregation/test_disaggregation_basic.py 中的 TestDisaggregationMooncakeSpec 类。关键改动点包括:

  1. 模型常量替换:将 DEFAULT_TARGET_MODEL_EAGLEDEFAULT_DRAFT_MODEL_EAGLE 分别替换为 DEFAULT_TARGET_MODEL_EAGLE3DEFAULT_DRAFT_MODEL_EAGLE3
  2. 添加参数:在 spec_args 列表中添加 --dtype=float16,以适应 EAGLE3 + Llama-3.1 的精度要求。
  3. 调整阈值:在 test_gsm8k 方法中,将断言阈值从 0.20 修改为 0.74。
  4. 增加并行度:将 parallel 参数从 2 改为 128,以提升测试效率。
文件 模块 状态 重要度
test/registered/disaggregation/test_disaggregation_basic.py test/disaggregation modified 7.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

setUpClass test_gsm8k

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,主要集中在测试层面:

  • 阈值调整风险:新阈值 0.74 基于 CI 分数 ~0.77 设定,但可能因环境变化导致 flaky 测试。
  • 模型兼容性:切换到 EAGLE3 + Llama-3.1 并添加 --dtype=float16,需确保模型和参数在测试环境中正确工作。
  • 性能影响:并行线程增加到 128 可能增加测试资源消耗,但影响局限于 CI 环境。

影响范围有限:

  • 用户影响:无直接影响,用户不会感知到此变更。
  • 系统影响:仅影响 CI 测试流程,确保测试通过以支持评估统一。
  • 团队影响:简化了测试维护,避免因旧模型问题导致的 CI 失败。
CI 测试阈值调整 新模型依赖变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 将 MooncakeSpec 测试中的模型从 Llama-2 EAGLE 切换为 Llama-3.1 EAGLE3,并调整了精度参数、阈值和并行度,以解决因 chat template wrapping 导致的评估分数下降问题,确保 CI 测试通过。

功能与动机

主要动机是解决 Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11 的问题,这阻碍了评估统一流程(关联 Issue #21667)。通过切换到 Llama-3.1 EAGLE3,可以恢复正常评估分数,避免 CI 阻塞。

实现拆解

所有变更集中在 test/registered/disaggregation/test_disaggregation_basic.py 文件的 TestDisaggregationMooncakeSpec 类中:

  • 模型常量更新
    cls.model = DEFAULT_TARGET_MODEL_EAGLE3
    cls.draft_model = DEFAULT_DRAFT_MODEL_EAGLE3
    
  • 参数添加:在 spec_args 中添加 --dtype=float16,以支持 EAGLE3 + Llama-3.1。
  • 阈值调整:将 test_gsm8k 中的断言从 self.assertGreater(metrics["accuracy"], 0.20) 改为 self.assertGreater(metrics["accuracy"], 0.74)
  • 并行度增加:将 parallel 参数从 2 改为 128。

评论区精华

本 PR 未收到任何 review 评论,因此无讨论内容可提炼。

风险与影响

  • 风险:阈值调整可能因环境变化导致测试不稳定;新模型和参数需确保兼容性;并行度增加可能提高资源消耗。
  • 影响:仅影响 CI 测试流程,对用户无直接感知,有助于团队维护测试一致性。

关联脉络

本 PR 是测试维护的一部分,与其他评估和 disaggregation 相关 PR 形成协同:

  • PR #21785 添加了 CompletionSampler,支持非聊天模型评估,与本 PR 的 eval unification 目标一致。
  • PR #21760 清理了 disaggregation 模块的冗余代码,反映了对该模块的持续优化。

参与讨论