#20799 Fix spec v2 + logprob when max_num_token is set

原始 PR 作者 Qiaolin-Yu 合并时间 2026-04-02 16:55 文件变更 1 提交数 10 评论 2 代码增减 +10 / -9

执行摘要

修复 spec v2 下设置 max_num_token 时 logprob 长度超过 output_ids 的问题。

从 PR body 中引用：'Before this fix, when max_num_token is set, len(logprobs) may be larger than len(output_ids). We need to restrict this.' 这表明在 speculative decoding v2 场景下，当限制最大 token 数量时，logprob 数组可能超出实际输出范围，需要对齐处理以避免数据错误。

建议精读 stream_output_generation 函数的变更，关注 logprob 切片逻辑的设计决策，特别是 max(len(output_ids_), 1) 的处理方式；对于涉及 speculative decoding 或调度输出的开发者，此 PR 展示了处理输出对齐的常见模式，值得参考。

讨论亮点

没有 review 评论，讨论为空；PR 中仅有作者触发 CI 的评论（如 '/tag-and-rerun-ci'），无技术争议或设计权衡讨论。

实现拆解

仅修改了 python/sglang/srt/managers/scheduler_output_processor_mixin.py 文件中的 stream_output_generation 函数。关键改动点：1) 在发送输入 logprobs 前添加条件 and req.input_token_logprobs_val is not None，确保只在 prefill 后计算完毕时才发送；2) 定义 logprob_end = max(len(output_ids_), 1) 作为切片结束索引，用于限制所有输出 logprob 相关数组（如 output_token_logprobs_val）的切片范围，避免使用完整数组长度导致长度不匹配。

文件	模块	状态	重要度
`python/sglang/srt/managers/scheduler_output_processor_mixin.py`	scheduling	modified	6.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

stream_output_generation

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

变更涉及核心调度输出路径的 logprob 发送逻辑，如果切片计算错误（例如 logprob_end 定义不当）可能引入回归，导致 logprob 数据丢失或错误；但由于改动较小且集中，风险可控。缺少新增测试覆盖可能增加未检测到边缘情况的风险。

影响使用 speculative decoding v2 并设置 max_num_token 的用户，确保返回的 logprob 数据与输出 tokens 严格对齐，提升功能正确性；对系统调度性能影响轻微，但需验证无额外开销；对团队开发，强调了输出对齐在流式生成中的重要性。

潜在回归风险核心路径变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此 PR 修复了 speculative decoding v2 场景下，当设置 max_num_token 时，logprob 数组长度可能大于输出 token 数量的数据对齐问题，通过调整调度输出处理器的切片逻辑确保正确性，属于重要 bugfix，影响 speculative decoding 用户。

功能与动机

动机源于 PR body 中描述的问题：在 max_num_token 设置后，len(logprobs) 可能超过 len(output_ids)，导致数据不一致。这在使用 speculative decoding v2 时可能引发 logprob 发送错误，需要限制对齐以匹配实际输出。

实现拆解

仅修改 python/sglang/srt/managers/scheduler_output_processor_mixin.py 文件中的 stream_output_generation 函数，关键变更点：

条件增强：添加 and req.input_token_logprobs_val is not None 条件，确保输入 logprobs 只在 prefill 后计算完毕时发送。
切片限制：定义 logprob_end = max(len(output_ids_), 1)，并用于所有输出 logprob 数组的切片（如 output_token_logprobs_val），避免直接使用数组全长。

代码示例：

logprob_end = max(len(output_ids_), 1)
output_token_logprobs_val.append(
    req.output_token_logprobs_val[send_output_token_logprobs_offset:logprob_end]
)

评论区精华

无 review 评论，讨论为空；仅有的评论为作者触发 CI 测试的命令。

风险与影响

技术风险：切片逻辑变更可能引入回归，如 logprob_end 计算错误导致 logprob 数据截断或越界；缺少测试覆盖增加风险。
影响范围：直接影响使用 speculative decoding v2 并设置 max_num_token 的用户，确保 logprob 数据正确性；对系统调度路径性能影响微小，但需监控。

关联脉络

从历史 PR 看，此 PR 与 speculative decoding 功能演进相关：

PR #21225 移除了 Ngram 窗口参数，简化配置，可能影响输出处理逻辑。
PR #21920 迁移 ngram corpus 到 TVM FFI，涉及底层计算，可能间接关联 logprob 生成。
这表明项目正持续优化 speculative decoding 的稳定性和性能，本 PR 是其中数据对齐的重要修复。

支持 Prhub ♥

#20799 Fix spec v2 + logprob when max_num_token is set

执行摘要

修复 spec v2 下设置 max_num_token 时 logprob 长度超过 output_ids 的问题。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论