#21794 Switch MooncakeSpec to EAGLE3 + Llama-3.1

原始 PR 作者 hnyls2002 合并时间 2026-04-01 08:12 文件变更 1 提交数 3 评论 6 代码增减 +7 / -6

执行摘要

将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3，并调整精度阈值和并行度。

根据 PR body 描述，Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11，原因是 chat template wrapping，这阻碍了评估统一流程（关联 Issue #21667）。因此，需要切换到 Llama-3.1 EAGLE3 以恢复正常评估分数，确保测试通过。

对于技术管理者和工程师，本 PR 值得快速浏览以了解测试配置的更新。关注点包括：模型切换的背景（Llama-2 分数下降）、新阈值设定的依据（CI 分数 0.775 > 0.74），以及并行度增加对测试性能的潜在优化。

讨论亮点

由于本 PR 没有收到任何 review 评论，因此无讨论内容可提炼。

实现拆解

实现集中在单个测试文件 test/registered/disaggregation/test_disaggregation_basic.py 中的 TestDisaggregationMooncakeSpec 类。关键改动点包括：

模型常量替换：将 DEFAULT_TARGET_MODEL_EAGLE 和 DEFAULT_DRAFT_MODEL_EAGLE 分别替换为 DEFAULT_TARGET_MODEL_EAGLE3 和 DEFAULT_DRAFT_MODEL_EAGLE3。
添加参数：在 spec_args 列表中添加 --dtype=float16，以适应 EAGLE3 + Llama-3.1 的精度要求。
调整阈值：在 test_gsm8k 方法中，将断言阈值从 0.20 修改为 0.74。
增加并行度：将 parallel 参数从 2 改为 128，以提升测试效率。

文件	模块	状态	重要度
`test/registered/disaggregation/test_disaggregation_basic.py`	test/disaggregation	modified	7.0

关键符号

setUpClass test_gsm8k

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低，主要集中在测试层面：

阈值调整风险：新阈值 0.74 基于 CI 分数 ~0.77 设定，但可能因环境变化导致 flaky 测试。
模型兼容性：切换到 EAGLE3 + Llama-3.1 并添加 --dtype=float16，需确保模型和参数在测试环境中正确工作。
性能影响：并行线程增加到 128 可能增加测试资源消耗，但影响局限于 CI 环境。

影响范围有限：

用户影响：无直接影响，用户不会感知到此变更。
系统影响：仅影响 CI 测试流程，确保测试通过以支持评估统一。
团队影响：简化了测试维护，避免因旧模型问题导致的 CI 失败。

CI 测试阈值调整新模型依赖变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 将 MooncakeSpec 测试中的模型从 Llama-2 EAGLE 切换为 Llama-3.1 EAGLE3，并调整了精度参数、阈值和并行度，以解决因 chat template wrapping 导致的评估分数下降问题，确保 CI 测试通过。

功能与动机

主要动机是解决 Llama-2 模型在 Chat API 下 GSM8K 分数下降至约 0.11 的问题，这阻碍了评估统一流程（关联 Issue #21667）。通过切换到 Llama-3.1 EAGLE3，可以恢复正常评估分数，避免 CI 阻塞。

实现拆解

所有变更集中在 test/registered/disaggregation/test_disaggregation_basic.py 文件的 TestDisaggregationMooncakeSpec 类中：

模型常量更新：

cls.model = DEFAULT_TARGET_MODEL_EAGLE3
cls.draft_model = DEFAULT_DRAFT_MODEL_EAGLE3

参数添加：在 spec_args 中添加 --dtype=float16，以支持 EAGLE3 + Llama-3.1。
阈值调整：将 test_gsm8k 中的断言从 self.assertGreater(metrics["accuracy"], 0.20) 改为 self.assertGreater(metrics["accuracy"], 0.74)。
并行度增加：将 parallel 参数从 2 改为 128。

评论区精华

本 PR 未收到任何 review 评论，因此无讨论内容可提炼。

风险与影响

风险：阈值调整可能因环境变化导致测试不稳定；新模型和参数需确保兼容性；并行度增加可能提高资源消耗。
影响：仅影响 CI 测试流程，对用户无直接感知，有助于团队维护测试一致性。

关联脉络

本 PR 是测试维护的一部分，与其他评估和 disaggregation 相关 PR 形成协同：

PR #21785 添加了 CompletionSampler，支持非聊天模型评估，与本 PR 的 eval unification 目标一致。
PR #21760 清理了 disaggregation 模块的冗余代码，反映了对该模块的持续优化。

#21794 Switch MooncakeSpec to EAGLE3 + Llama-3.1

执行摘要

将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3，并调整精度阈值和并行度。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论