Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

OP 相关 PR

2026-04-18
缺陷修复 重要性 5.54 洞察度 5.00

修复投机解码重复惩罚核函数越界访问,并将默认验证策略改为target_match。

Speculative Decoding bugfix OP FDConfig

该PR值得精读,特别是CUDA核函数修复部分,展示了在并行计算中处理边界条件的常见陷阱。关注点:1. `update_repeat_times`核函数中循环上界从`length_id`到`cur_len[bi]`的变更逻辑;2. 默认配置变更的设计决策,反映了项目对常用功能的优化。建议结合review评论,补充相关测试和文档更新。

2026-04-17

#7442 [Speculative Decoding] Add MTP logprob support for PD disaggregation

作者 Deleter-D · 合并时间 2026-04-17 21:37

功能 重要性 6.50 洞察度 5.00

为PD分离部署下的MTP投机解码新增prefill节点首token的logprob支持。

Speculative Decoding PD Disaggregation OP Feature

该PR值得精读,重点关注以下设计决策: 1. **消息结构体抽取**:将 `msgdata` 和 `batch_msgdata` 抽取到共享头文件,减少了代码重复,但宏命名存在冲突风险,可学习其重构思路。 2. **输出保存逻辑重构**:`save_output_specualate` 函数新增参数以区分prefill和decode节点,体现了PD分离架构下的模块化设计,但需注意数据一致性和参数传递的边界条件。 3. **算子语义设计**:`mtp_save_first_token_with_topk` 算子的实现展示了如何扩展现有功能(添加logprob支持),但 `cur_token_num` 计算与上游语义的冲突揭示了接口设计的重要性。 建议结合review评论,在实际部署前验证非MTP投机方法的兼容性,并补充单元测试。

#7453 [Iluvatar] fix ci error and update readme

作者 wuyujiji · 合并时间 2026-04-17 20:42

缺陷修复 重要性 4.01 洞察度 3.00

修复 Iluvatar 后端 MoE 层接口签名不一致问题并更新安装文档。

Iluvatar bugfix docs OP

该 PR 值得快速浏览,重点关注 MoE 层接口对齐的设计决策,了解如何通过添加可选参数来保持向后兼容性;同时可参考文档更新模式,学习如何同步维护中英文技术文档。

2026-04-16

#7428 [Feature] Support MOE Cutlass backend for latent MOE

作者 chang-wenbin · 合并时间 2026-04-16 22:11

功能 重要性 6.09 洞察度 5.00

为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。

Feature MoE OP Models

该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。

optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。

Optimization Models KVCache OP

该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。

#7180 [XPU] Unify Spec and non-spec branch.(#6947)

作者 Jiajun-Ji · 合并时间 2026-04-16 14:58

重构 重要性 6.68 洞察度 7.00

在XPU平台统一推测解码和非推测解码分支,新增草稿令牌验证算子。

XPU Speculative Decoding OP Refactor

该PR值得精读,重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计,这些决策体现了跨平台架构对齐和模块化设计。

#6798 [XPU] Split the block_attn operator into smaller operators

作者 RuohengMa · 合并时间 2026-04-16 14:28

性能优化 重要性 7.69 洞察度 5.00

将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本,提升优化灵活性。

XPU Optimization OP test

建议技术管理者关注此 PR 的设计决策:如何通过环境变量实现渐进式优化,以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑,并参考 `test_block_attn.py` 学习数值验证方法,同时注意 review 中提到的 bug 和依赖风险。

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。

Optimization OP Models FlashInfer

建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。