Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Speculative Decoding 相关 PR

2026-04-18
缺陷修复 重要性 5.54 洞察度 5.00

修复投机解码重复惩罚核函数越界访问,并将默认验证策略改为target_match。

Speculative Decoding bugfix OP FDConfig

该PR值得精读,特别是CUDA核函数修复部分,展示了在并行计算中处理边界条件的常见陷阱。关注点:1. `update_repeat_times`核函数中循环上界从`length_id`到`cur_len[bi]`的变更逻辑;2. 默认配置变更的设计决策,反映了项目对常用功能的优化。建议结合review评论,补充相关测试和文档更新。

2026-04-17

#7442 [Speculative Decoding] Add MTP logprob support for PD disaggregation

作者 Deleter-D · 合并时间 2026-04-17 21:37

功能 重要性 6.50 洞察度 5.00

为PD分离部署下的MTP投机解码新增prefill节点首token的logprob支持。

Speculative Decoding PD Disaggregation OP Feature

该PR值得精读,重点关注以下设计决策: 1. **消息结构体抽取**:将 `msgdata` 和 `batch_msgdata` 抽取到共享头文件,减少了代码重复,但宏命名存在冲突风险,可学习其重构思路。 2. **输出保存逻辑重构**:`save_output_specualate` 函数新增参数以区分prefill和decode节点,体现了PD分离架构下的模块化设计,但需注意数据一致性和参数传递的边界条件。 3. **算子语义设计**:`mtp_save_first_token_with_topk` 算子的实现展示了如何扩展现有功能(添加logprob支持),但 `cur_token_num` 计算与上游语义的冲突揭示了接口设计的重要性。 建议结合review评论,在实际部署前验证非MTP投机方法的兼容性,并补充单元测试。

#7438 [BugFix] Fix real token exceeding max_batched_tokens limit

作者 freeliuzc · 合并时间 2026-04-17 16:18

缺陷修复 重要性 4.96 洞察度 7.00

修复投机解码场景下调度器token预算计算错误,避免显存OOM。

bugfix Scheduler Speculative Decoding Engine

该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。

2026-04-16

#7180 [XPU] Unify Spec and non-spec branch.(#6947)

作者 Jiajun-Ji · 合并时间 2026-04-16 14:58

重构 重要性 6.68 洞察度 7.00

在XPU平台统一推测解码和非推测解码分支,新增草稿令牌验证算子。

XPU Speculative Decoding OP Refactor

该PR值得精读,重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计,这些决策体现了跨平台架构对齐和模块化设计。

2026-04-15

#7237 [Optimization] Auto set num_max_dispatch_tokens_per_rank

作者 RichardWooSJTU · 合并时间 2026-04-15 19:13

基础设施 重要性 4.54 洞察度 4.00

自动设置num_max_dispatch_tokens_per_rank参数,基于投机解码状态优化配置。

Optimization Speculative Decoding infra

建议精读以了解FastDeploy配置自动化的设计模式,特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。

#6947 [XPU] add verify draft tokens

作者 cmcamdy · 合并时间 2026-04-15 10:18

功能 重要性 7.50 洞察度 5.00

为 XPU 平台新增投机解码草稿令牌验证算子,支持三种验证策略。

XPU OP Speculative Decoding Feature

建议精读此 PR,重点关注 XPU kernel 的实现细节(如验证策略逻辑和随机数处理),以及设计权衡(如线程安全修复)。对于从事投机解码或跨平台优化的工程师,此 PR 展示了硬件特定算子的集成模式,值得学习。

2026-04-14
缺陷修复 重要性 6.00 洞察度 5.00

修复投机解码中推理阶段状态机因step_idx语义变更导致的索引错误。

Speculative Decoding OP bugfix

该PR值得精读,重点关注step_idx语义变更的设计决策和索引调整逻辑。建议同时review相关PR(如#7166)以理解step_idx语义变更的完整背景。注意review中提到的遗漏文件和恢复逻辑不一致问题,需确认是否在后续PR中解决。