#7402 [Speculate Decoding] Fix reasoning_phase_token_constraint call args in SpeculativeSampler

PaddlePaddle/FastDeploy · 作者 lonelygsh · 合并时间 2026-04-15 12:45

分析状态已生成

文件变更 1提交数 1 · 评论 2

代码增减 +2 / -1

Speculative Decoding bugfix OP

执行摘要

修复投机解码采样器中推理阶段令牌约束函数的参数传递错误。

根据 PR body 描述，在 SpeculativeSampler 中调用 reasoning_phase_token_constraint 时，传入的参数与函数签名不匹配：第二个参数错误地使用了 sampling_metadata.pre_token_ids，缺少第三个必传参数 prompt_lens，导致推理约束逻辑无法正确执行，提测失败。

该 PR 值得快速浏览，重点关注参数修正的正确性，可作为投机解码模块调试的参考案例。

讨论亮点

review 中仅有 AI Code Review 和批准，无实质性讨论。AI Review 指出修改合理有效，参数传递与函数签名完全匹配，未发现阻塞性问题。

实现拆解

定位问题入口：在 fastdeploy/model_executor/layers/sample/sampler.py 的 forward_cuda 方法中，找到 reasoning_phase_token_constraint 函数调用处。
修正参数传递：将第二个参数从 sampling_metadata.pre_token_ids 替换为 token_ids_all，并新增第三个参数 prompt_lens。
确保函数签名匹配：修改后参数与 reasoning_phase_token_constraint 函数签名完全一致，修复了参数不匹配导致的逻辑错误。
测试覆盖：PR 描述指出已有相关算子测试覆盖，无需新增单测，且 Codecov 报告显示所有修改行已被测试覆盖。

文件	模块	状态	重要度
`fastdeploy/model_executor/layers/sample/sampler.py`	采样器	modified	3.89

fastdeploy/model_executor/layers/sample/sampler.py core-logic

这是修复的唯一文件，包含 SpeculativeSampler 的核心采样逻辑，参数错误直接影响推理阶段令牌约束的执行。

def forward_cuda(
    self,
    logits: torch.Tensor,
    sampling_metadata: SamplingMetadata,
    share_inputs: Dict[str, torch.Tensor],
    token_ids_all: torch.Tensor, # 新增参数，用于替换错误的 pre_token_ids
    prompt_lens: torch.Tensor, # 新增参数，确保函数签名匹配
    # ... 其他参数
):
    # ... 前略
    if self.enf_gen_phase_tag:
        reasoning_phase_token_constraint(
            logits,
            token_ids_all, # 修复：替换为正确的参数 token_ids_all
            prompt_lens, # 修复：新增必传参数 prompt_lens
            share_inputs["stop_flags"],
            share_inputs["seq_lens_this_time"],
            share_inputs["seq_lens_encoder"],
            # ... 其他参数
        )
    # ... 后略

关键符号

forward_cuda reasoning_phase_token_constraint

评论区精华

参数修正正确性 正确性

AI Review 指出修改后的参数传递与函数签名完全匹配，修复合理有效。

结论：无争议，修改被批准。 · 已解决

风险与影响

风险较低：

回归风险：修改仅涉及参数传递，不改变核心逻辑，但需确保 token_ids_all 和 prompt_lens 在上下文中定义正确，否则可能引入新错误。
兼容性风险：无，因为修复的是内部函数调用错误，不影响外部接口。
性能风险：无，参数替换不影响性能。

影响范围有限：

用户影响：无直接用户影响，修复内部逻辑错误。
系统影响：确保投机解码中推理阶段令牌约束逻辑正确执行，避免因参数错误导致的提测失败或推理错误。
团队影响：修复简单，易于理解和维护，无需额外培训。

参数传递错误修复核心路径变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复投机解码采样器中推理阶段令牌约束函数的参数传递错误。
推荐动作：该 PR 值得快速浏览，重点关注参数修正的正确性，可作为投机解码模块调试的参考案例。

功能与动机

实现拆解

定位问题入口：在 fastdeploy/model_executor/layers/sample/sampler.py 的 forward_cuda 方法中，找到 reasoning_phase_token_constraint 函数调用处。
修正参数传递：将第二个参数从 sampling_metadata.pre_token_ids 替换为 token_ids_all，并新增第三个参数 prompt_lens。
确保函数签名匹配：修改后参数与 reasoning_phase_token_constraint 函数签名完全一致，修复了参数不匹配导致的逻辑错误。
测试覆盖：PR 描述指出已有相关算子测试覆盖，无需新增单测，且 Codecov 报告显示所有修改行已被测试覆盖。

关键文件：

fastdeploy/model_executor/layers/sample/sampler.py（模块采样器；类别 source；类型 core-logic；符号 forward_cuda）: 这是修复的唯一文件，包含 SpeculativeSampler 的核心采样逻辑，参数错误直接影响推理阶段令牌约束的执行。

关键符号：forward_cuda, reasoning_phase_token_constraint

关键源码片段

`fastdeploy/model_executor/layers/sample/sampler.py`

这是修复的唯一文件，包含 SpeculativeSampler 的核心采样逻辑，参数错误直接影响推理阶段令牌约束的执行。

def forward_cuda(
    self,
    logits: torch.Tensor,
    sampling_metadata: SamplingMetadata,
    share_inputs: Dict[str, torch.Tensor],
    token_ids_all: torch.Tensor, # 新增参数，用于替换错误的 pre_token_ids
    prompt_lens: torch.Tensor, # 新增参数，确保函数签名匹配
    # ... 其他参数
):
    # ... 前略
    if self.enf_gen_phase_tag:
        reasoning_phase_token_constraint(
            logits,
            token_ids_all, # 修复：替换为正确的参数 token_ids_all
            prompt_lens, # 修复：新增必传参数 prompt_lens
            share_inputs["stop_flags"],
            share_inputs["seq_lens_this_time"],
            share_inputs["seq_lens_encoder"],
            # ... 其他参数
        )
    # ... 后略

评论区精华

review 中仅有 AI Code Review 和批准，无实质性讨论。AI Review 指出修改合理有效，参数传递与函数签名完全匹配，未发现阻塞性问题。

参数修正正确性 (correctness): 无争议，修改被批准。

风险与影响

风险：风险较低：
回归风险：修改仅涉及参数传递，不改变核心逻辑，但需确保 token_ids_all 和 prompt_lens 在上下文中定义正确，否则可能引入新错误。
兼容性风险：无，因为修复的是内部函数调用错误，不影响外部接口。
性能风险：无，参数替换不影响性能。
影响：影响范围有限：
用户影响：无直接用户影响，修复内部逻辑错误。
系统影响：确保投机解码中推理阶段令牌约束逻辑正确执行，避免因参数错误导致的提测失败或推理错误。
团队影响：修复简单，易于理解和维护，无需额外培训。
风险标记：参数传递错误修复, 核心路径变更

关联脉络

PR #7349 [Speculate Decoding] Fix step_idx semantics in reasoning_phase_token_constraint and speculate set_value kernels: 都涉及 reasoning_phase_token_constraint 函数的修复，属于同一投机解码模块的连续优化。
PR #7166 [Speculative Decoding] fix mtp stop_seqs and limit thinking bugs: 都涉及投机解码中 step_idx 语义变更相关的修复，可能存在逻辑关联。

支持 Prhub ♥

#7402 [Speculate Decoding] Fix reasoning_phase_token_constraint call args in SpeculativeSampler

执行摘要

修复投机解码采样器中推理阶段令牌约束函数的参数传递错误。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

关键源码片段

`fastdeploy/model_executor/layers/sample/sampler.py`

评论区精华

风险与影响

关联脉络

参与讨论