# PR #22206 完整报告

- 仓库：`sgl-project/sglang`
- 标题：tiny fix chain-style multi layer eagle comments
- 合并时间：2026-04-07 04:49
- 原文链接：http://prhub.com.cn/sgl-project/sglang/pull/22206

---

# 执行摘要

- 一句话：修复多层级 Eagle 推测解码中链式 MTP 注释的变量引用错误。
- 推荐动作：该 PR 无需精读，除非您正在深入理解多层级 Eagle 推测解码的链式 MTP 实现细节。变更简单，可作为代码文档维护的良好示例。

# 功能与动机

PR 标题和 patch 摘要表明，原始注释中 `self.hidden_states` 的引用不准确，实际应为 `buffers.hidden_states`。虽然 PR body 未填写具体动机，但从变更内容可推断，这是为了修正注释与代码实现的不一致，提高代码可读性和维护性。

# 实现拆解

仅修改一个文件中的一行注释：
1. 在 `python/sglang/srt/speculative/multi_layer_eagle_draft_extend_cuda_graph_runner.py` 文件的第 429 行，将注释中的 `self.hidden_states` 替换为 `buffers.hidden_states`。
2. 注释解释了链式 MTP 中隐藏状态的传播逻辑：使用草稿模型的输出（hidden_states_before_norm）覆盖 buffers.hidden_states，以确保每个 MTP 层将其输出传播到下一层，而非始终使用目标模型的隐藏状态。

关键文件：
- `python/sglang/srt/speculative/multi_layer_eagle_draft_extend_cuda_graph_runner.py`（模块 speculative-decoding）: 唯一修改的文件，包含多层级 Eagle 推测解码的 CUDA 图运行逻辑，注释修正涉及链式 MTP 的隐藏状态传播机制。

关键符号：run_once


# 评论区精华

review 中仅有两个简短评论：
1. hnyls2002 直接批准，无具体讨论。
2. gemini-code-assist[bot] 确认了变更目的（修正注释以反映 buffers.hidden_states 的正确使用），并表示无进一步反馈。
无争议点或深度讨论，变更简单明确。

- 注释修正的准确性确认 (documentation): 变更被接受，无进一步反馈。

# 风险与影响

- 风险：风险极低：
 1. 仅修改注释，不涉及任何代码逻辑变更，无回归风险。
 2. 不影响性能、安全性或兼容性。
 3. 文件属于推测解码模块，但注释修正不会干扰核心功能。
- 影响：影响范围极小：
 1. 对用户无直接影响，不改变系统行为。
 2. 对开发者有轻微正面影响，提高代码注释的准确性，减少潜在混淆。
 3. 仅涉及单个文件的注释，不影响其他模块或功能。
- 风险标记：暂无

# 关联脉络

- PR #21589 [sgl] two potential spec_v2 bug fixes: 同属推测解码（speculative-decoding）模块，涉及 Eagle 模型修复，但本 PR 仅修正注释，无功能关联。
- PR #22180 [Spec][Ngram] Followup fixes for `MatchState` incremental advance: 同属推测解码模块，但本 PR 仅涉及 Eagle 而非 Ngram，且为注释修正而非功能优化。