#6993 [XPU] Refactor pre process

PaddlePaddle/FastDeploy · 作者 cmcamdy · 合并时间 2026-04-01 20:29

分析状态已生成

文件变更 36提交数 7 · 评论 2

代码增减 +2725 / -511

XPU Refactor Feature Optimization

执行摘要

重构 XPU 前处理逻辑，统一推测解码的数据流并移除冗余参数。

根据PR body，动机是'前处理优化统一'，引用相关PR #6358（refactor MTP pre_process）和 #6501（speculate_pre_process），旨在统一和优化前处理逻辑，解决解码结果异常问题，并提升XPU平台上的处理性能。

建议技术管理者和工程师精读此PR，重点关注speculate_pre_process和unified_update_model_status的设计实现，理解数据结构变化如何优化推测解码流程。同时，注意测试覆盖不足的风险，建议补充更多集成测试。

讨论亮点

Review评论中仅有两个DISMISSED状态的LGTM（来自reviewer hong19860320和freeliuzc），没有具体技术讨论或争议点。这表明变更被快速接受，但可能缺乏深度设计审查。

实现拆解

实现拆解为以下关键部分：1. 新增核心算子：在custom_ops/xpu_ops/src/ops/mtp/下添加speculate_preprocess.cc和unified_update_model_status.cc，分别处理输入数据去除填充和统一模型状态更新。2. 移除冗余参数：修改多个XPU算子（如adjust_batch.cc、block_attn.cc、gather_next_token.cc）移除cum_offsets参数，改用cu_seqlens_q_output和batch_id_per_token_output等新参数。3. Python层集成：更新fastdeploy/model_executor/xpu_pre_and_post_process.py中的xpu_pre_process函数，调用新算子并调整数据结构传递。4. 测试补充：新增custom_ops/xpu_ops/test/test_speculate_pre_process.py和test_unified_update_model_status.py进行单元测试。

文件	模块	状态	重要度
`custom_ops/xpu_ops/src/ops/mtp/speculate_preprocess.cc`	XPU Ops/MTP	added	10.0
`custom_ops/xpu_ops/src/ops/mtp/unified_update_model_status.cc`	XPU Ops/MTP	added	9.0
`fastdeploy/model_executor/xpu_pre_and_post_process.py`	Model Executor	modified	8.0
`custom_ops/xpu_ops/src/ops/adjust_batch.cc`	XPU Ops	modified	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

SpeculatePreProcess UnifiedUpdateModelStatus xpu_pre_process AdjustBatch BlockAttn GatherNextToken

评论区精华

前处理重构设计 设计

Review 中没有实质性讨论，仅有两个 LGTM 评论，表明变更被直接接受。

结论：变更通过，但缺乏深度技术审查。 · 已解决

风险与影响

风险包括：1. 回归风险：移除cum_offsets参数可能影响现有逻辑的兼容性，特别是在GPU和XPU混合部署场景。2. 性能风险：新算子可能引入额外计算或内存开销，需通过基准测试验证。3. 测试覆盖不足：Codecov报告显示patch覆盖率为50%，有1行代码缺少覆盖，可能隐藏边界情况问题。4. 安全风险：低，主要为内部数据处理变更。

影响范围：1. 用户影响：对终端用户透明，但需确保推理结果一致性和性能无退化。2. 系统影响：简化XPU前处理数据流，提升可维护性，可能减少错误；但需验证在MTP推测解码场景下的稳定性和效率提升。3. 团队影响：工程师需适应新的数据结构，如从cum_offsets转向cu_seqlens_q_output，可能影响后续开发。

核心路径变更缺少测试覆盖参数移除兼容性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR重构了FastDeploy中XPU平台的前处理逻辑，通过新增speculate_pre_process和unified_update_model_status算子，并移除多个算子中的cum_offsets参数，统一了推测解码的数据流。变更涉及36个文件，影响核心处理路径，旨在提升代码清晰度和处理效率，但存在回归风险和测试覆盖不足的问题。

功能与动机

为什么做：根据PR body，动机是“前处理优化统一”，引用相关PR #6358和 #6501，旨在解决XPU上MTP（混合令牌并行）推测解码场景的前处理逻辑碎片化问题，优化数据传递并修复解码异常。PR body中展示了基准测试结果，表明在21B A3B单卡上解码结果发现明显异常，需通过重构来改进。

实现拆解

按模块拆解改动：

新增算子层：在custom_ops/xpu_ops/src/ops/mtp/下添加：
- speculate_preprocess.cc：处理输入ID、序列长度和草稿令牌，输出去除填充的ID、批次映射、累积序列长度等结构化数据。
- unified_update_model_status.cc：统一更新模型状态，包括序列长度、停止标志等，简化状态管理。
算子参数重构：修改多个现有XPU算子（如adjust_batch.cc、block_attn.cc、gather_next_token.cc），移除cum_offsets参数，改用cu_seqlens_q_output和batch_id_per_token_output等新参数，示例如下：
cpp // 修改前 std::vector<paddle::Tensor> AdjustBatchKernel( const paddle::Tensor &x, const paddle::Tensor &cum_offsets, // 被移除 ...); // 修改后 std::vector<paddle::Tensor> AdjustBatchKernel( const paddle::Tensor &x, ...); // cum_offsets 已移除
Python层集成：更新fastdeploy/model_executor/xpu_pre_and_post_process.py中的xpu_pre_process函数，调用新算子并调整数据结构传递，移除对cum_offsets的依赖。
测试补充：新增custom_ops/xpu_ops/test/test_speculate_pre_process.py和test_unified_update_model_status.py单元测试文件，但Codecov报告显示patch覆盖率仅50%。

评论区精华

Review讨论摘要：评论中仅有两个reviewer（hong19860320和freeliuzc）给出了LGTM并标记为DISMISSED，没有具体技术交锋或争议点。这表明变更被快速接受，但可能缺乏对设计权衡的深度讨论。

风险与影响

具体风险：

回归风险：移除cum_offsets参数可能破坏现有GPU/XPU混合部署的兼容性，需验证跨平台一致性。
性能风险：新算子可能引入额外计算开销，影响实时解码性能，尤其是在高负载场景。
测试覆盖不足：Patch覆盖率仅50%，缺少边界情况测试，可能隐藏逻辑错误。

影响评估：

对用户：透明变更，但需确保推理结果无退化；基准测试显示解码异常，重构后应改善。
对系统：简化数据流，提升可维护性；但变更涉及核心路径，需谨慎部署。
对团队：工程师需学习新的数据结构，可能影响后续开发节奏。

关联脉络

与历史PR的关系：本PR直接引用PR #6358（refactor MTP pre_process）和 #6501（speculate_pre_process），是前处理优化链条的一部分。近期历史PR中，如#7001（Support mtp overlap schedule）和#7107（PD Disaggregation）也涉及推测解码和调度优化，表明仓库正持续演进MTP和推测解码功能，本PR为这一方向的基础设施重构。

支持 Prhub ♥

#6993 [XPU] Refactor pre process

执行摘要

重构 XPU 前处理逻辑，统一推测解码的数据流并移除冗余参数。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论