← 返回仓库详情

#7159 [Feature] Support set PREEMPTED_TOKEN_ID in GET_SAVE_OUTPUT_V1

PaddlePaddle/FastDeploy · 作者 rainyfly · 合并时间 2026-04-08 19:30

分析状态已生成

文件变更 1提交数 3 · 评论 3

代码增减 +11 / -1

Feature Engine GPU

执行摘要

在 GET_SAVE_OUTPUT_V1 模式下为被抢占请求设置特殊令牌 ID 以同步中断完成信号。

根据PR描述，该变更的目的是"支持在开启FD_USE_GET_SAVE_OUTPUT_V1时，同步中断完成信号"。具体来说，当请求被抢占后，没有对应的采样令牌，需要通过设置特殊令牌ID来通知服务器端abort操作已完成。

该PR值得快速浏览，重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小，但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式，对于理解FastDeploy的请求生命周期管理有帮助。

讨论亮点

AI代码审查机器人fastdeploy-bot指出了关键的环境变量名错误：原始代码使用了envs.GET_SAVE_OUTPUT_V1，但正确的环境变量名应为envs.FD_USE_GET_SAVE_OUTPUT_V1。这个错误会导致运行时AttributeError，使条件分支无法正常进入。审查还提到该逻辑与token_processor.py中处理PREEMPTED_TOKEN_ID的逻辑保持一致，并建议补充PR描述中的Motivation和Modifications部分。

实现拆解

实现集中在fastdeploy/worker/gpu_model_runner.py文件的_postprocess方法中。主要改动是：1. 导入PREEMPTED_TOKEN_ID常量；2. 在FD_USE_GET_SAVE_OUTPUT_V1启用时，检查last_preempted_idx数组；3. 对于被抢占的请求（preempted_idx为1），使用paddle.where将其sampled_token_ids设置为PREEMPTED_TOKEN_ID(-9)。

文件	模块	状态	重要度
`fastdeploy/worker/gpu_model_runner.py`	Worker	modified	8.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

_postprocess

评论区精华

环境变量名错误修复 正确性

fastdeploy-bot 指出原始代码使用了错误的变量名 envs.GET_SAVE_OUTPUT_V1，应为 envs.FD_USE_GET_SAVE_OUTPUT_V1，否则会导致运行时 AttributeError。

结论：开发者已修复该错误，将变量名更正为 envs.FD_USE_GET_SAVE_OUTPUT_V1。 · 已解决

PR 描述完善建议 documentation

fastdeploy-bot 建议补充 PR 描述中的 Motivation 和 Modifications 部分，以更清晰地说明变更目的和具体修改内容。

结论：PR 描述中已包含基本说明，但未完全按照建议模板填充详细内容。 · partially_resolved

风险与影响

主要风险是环境变量名错误可能导致运行时异常，但已在审查中被识别并修复。变更影响范围有限，仅涉及_postprocess方法中的一个条件分支。需要确保PREEMPTED_TOKEN_ID(-9)在服务器端有正确的处理逻辑，否则可能导致协议不一致。代码覆盖率报告显示有1行代码缺少测试覆盖，可能存在测试不完整风险。

对用户影响：使用FD_USE_GET_SAVE_OUTPUT_V1模式的用户将获得更好的请求抢占处理能力。对系统影响：增强了GPU模型运行器在抢占场景下的健壮性，确保中断信号正确传递。对团队影响：变更较小，易于理解和维护，与现有token_processor.py中的处理逻辑保持一致。

环境变量名错误缺少测试覆盖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR为FastDeploy的GPU模型运行器增加了请求抢占信号传递支持。当启用FD_USE_GET_SAVE_OUTPUT_V1环境变量时，被抢占的请求会将其采样令牌ID设置为特殊值PREEMPTED_TOKEN_ID(-9)，以此通知服务器端中断操作已完成。这是一个小规模但重要的功能增强，确保了抢占流程的正确结束。

功能与动机

根据PR描述，该变更的目的是"支持在开启FD_USE_GET_SAVE_OUTPUT_V1时，同步中断完成信号"。具体来说，在使用GET_SAVE_OUTPUT_V1模式时，当请求被抢占（preempted）后，没有对应的采样令牌。通过设置PREEMPTED_TOKEN_ID(-9)，可以通知服务器端abort操作已完成，使抢占流程能够正确结束。

实现拆解

实现集中在fastdeploy/worker/gpu_model_runner.py文件的_postprocess方法中：

导入变更：从fastdeploy.config导入PREEMPTED_TOKEN_ID常量
核心逻辑：在FD_USE_GET_SAVE_OUTPUT_V1启用时，检查last_preempted_idx数组
令牌替换：使用paddle.where条件操作，将被抢占请求的sampled_token_ids设置为PREEMPTED_TOKEN_ID

关键代码段：

if envs.FD_USE_GET_SAVE_OUTPUT_V1:
    paddle.assign(
        paddle.where(
            self.share_inputs["last_preempted_idx"][: sampler_output.sampled_token_ids.shape[0]] == 1,
            PREEMPTED_TOKEN_ID,
            sampler_output.sampled_token_ids,
        ),
        sampler_output.sampled_token_ids,
    )

评论区精华

AI代码审查机器人fastdeploy-bot指出了关键问题：

🔴 Bug 变量名错误：envs.GET_SAVE_OUTPUT_V1不存在，应为envs.FD_USE_GET_SAVE_OUTPUT_V1

这个错误会导致运行时AttributeError，使条件分支永远无法进入。开发者随后修复了这个问题。审查还提到：

代码逻辑清晰，与已有的token_processor.py中处理PREEMPTED_TOKEN_ID的逻辑保持一致。

风险与影响

风险分析：

环境变量名错误已修复，但原始错误可能导致运行时异常
需要确保服务器端能正确处理PREEMPTED_TOKEN_ID(-9)，否则可能导致协议不一致
代码覆盖率报告显示有1行代码缺少测试覆盖

影响评估：

对使用FD_USE_GET_SAVE_OUTPUT_V1模式的用户：增强了请求抢占处理能力
对系统：提高了GPU模型运行器在抢占场景下的健壮性
对团队：变更规模小，易于维护，与现有处理逻辑保持一致

关联脉络

从近期历史PR分析可以看出：

相同文件修改：PR #7165、#7147、#7215都修改了fastdeploy/worker/gpu_model_runner.py文件，表明这是FastDeploy中频繁修改的核心组件
GPU优化趋势：多个PR涉及GPU性能优化（如#7165的TBO优化、#7215的CUDA图自动缩放），本次PR延续了这一方向
引擎改进：与#7102（修复流式解码令牌丢失）类似，都是对请求处理生命周期的完善

本次PR虽然规模小，但体现了FastDeploy在完善请求生命周期管理和异步处理信号传递方面的持续改进。

支持 Prhub ♥

#7159 [Feature] Support set PREEMPTED_TOKEN_ID in GET_SAVE_OUTPUT_V1

执行摘要

在 GET_SAVE_OUTPUT_V1 模式下为被抢占请求设置特殊令牌 ID 以同步中断完成信号。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论