Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-16

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。

该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。

#7426 [Engine] Allow parallel dp starting

作者 RichardWooSJTU · 合并时间 2026-04-16 18:43

optimization 重要性 4.10 洞察度 4.00

将数据并行进程启动从串行改为并行,优化启动性能。

此PR值得快速浏览,了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改,并思考是否需要在团队代码规范中补充超时机制。

#7425 [BugFix] Fix deep gemm import

作者 RichardWooSJTU · 合并时间 2026-04-16 17:56

缺陷修复 重要性 3.71 洞察度 3.00

修复DeepSeekV3模型中deep_gemm导入路径,统一使用FastDeploy内置实现。

该PR变更简单直接,适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类(fp8_utils)管理外部依赖,这种模式可推广到其他模型。

#7420 [BugFix][XPU] Fix kv_cache management bug

作者 ddchenhao66 · 合并时间 2026-04-16 15:45

缺陷修复 重要性 4.19 洞察度 4.00

修复 XPU model runner 在开启 attention store 时重复创建 KV cache 的问题。

该 PR 值得精读,特别是对于关注 XPU 平台优化和 KV cache 管理的工程师。关键设计决策在于将条件逻辑从单一检查扩展为多条件组合,这反映了对 cache 管理策略的细化,值得学习其与 GPU/Metax 实现对齐的思路。

功能 重要性 7.98 洞察度 7.00

实现日志通道划分和请求日志分级系统,优化日志管理和可配置性。

该 PR 值得精读,特别是日志通道划分和分级系统的设计决策。关注 `RequestLogLevel` 枚举的使用、`log_request` 和 `log_request_error` 的实现方式(如级别过滤和错误处理),以及如何通过环境变量实现动态配置。同时,注意 review 中讨论的性能和兼容性权衡,为类似基础设施重构提供参考。

#7180 [XPU] Unify Spec and non-spec branch.(#6947)

作者 Jiajun-Ji · 合并时间 2026-04-16 14:58

重构 重要性 6.68 洞察度 7.00

在XPU平台统一推测解码和非推测解码分支,新增草稿令牌验证算子。

该PR值得精读,重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计,这些决策体现了跨平台架构对齐和模块化设计。

基础设施 重要性 3.94 洞察度 3.00

在CI审批检查脚本中新增日志相关修改的审批检测逻辑。

该PR是典型的CI流程优化,适合基础设施维护者精读以了解审批检查机制。值得关注的设计决策包括:通过git diff过滤实现精准检测、排除脚本自身修改避免循环触发、以及如何平衡检测覆盖与误报风险。对于普通开发者,了解此变更可避免在修改日志代码时意外触发审批要求。

性能优化 重要性 7.69 洞察度 5.00

将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本,提升优化灵活性。

建议技术管理者关注此 PR 的设计决策:如何通过环境变量实现渐进式优化,以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑,并参考 `test_block_attn.py` 学习数值验证方法,同时注意 review 中提到的 bug 和依赖风险。

参与讨论