← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#7367 [Optimization][DeepSeekV3.2]Reducing slot_mapping compute frequency from twice per layer to a single pre-processing step.

作者 ShaneGZhu · 合并时间 2026-04-16 19:54

optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理，提升推理性能约 8-14%。

该 PR 值得精读，特别是设计决策将计算从模型层移至运行器层，展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节，以及 review 中讨论的未解决点（如 GlmMoeDsa 兼容性），以便在其他优化中借鉴。

查看完整分析 GitHub 原始 PR OptimizationModelsKVCache

#7426 [Engine] Allow parallel dp starting

作者 RichardWooSJTU · 合并时间 2026-04-16 18:43

optimization 重要性 4.10 洞察度 4.00

将数据并行进程启动从串行改为并行，优化启动性能。

此PR值得快速浏览，了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改，并思考是否需要在团队代码规范中补充超时机制。

查看完整分析 GitHub 原始 PR EngineOptimizationinfra

#7425 [BugFix] Fix deep gemm import

作者 RichardWooSJTU · 合并时间 2026-04-16 17:56

缺陷修复重要性 3.71 洞察度 3.00

修复DeepSeekV3模型中deep_gemm导入路径，统一使用FastDeploy内置实现。

该PR变更简单直接，适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类（fp8_utils）管理外部依赖，这种模式可推广到其他模型。

查看完整分析 GitHub 原始 PR ModelsQuantizationbugfix

#7420 [BugFix][XPU] Fix kv_cache management bug

作者 ddchenhao66 · 合并时间 2026-04-16 15:45

缺陷修复重要性 4.19 洞察度 4.00

修复 XPU model runner 在开启 attention store 时重复创建 KV cache 的问题。

该 PR 值得精读，特别是对于关注 XPU 平台优化和 KV cache 管理的工程师。关键设计决策在于将条件逻辑从单一检查扩展为多条件组合，这反映了对 cache 管理策略的细化，值得学习其与 GPU/Metax 实现对齐的思路。

查看完整分析 GitHub 原始 PR XPUKVCachebugfix

#7190 [Feature] implement log channel separation and request log level system

作者 xyxinyang · 合并时间 2026-04-16 15:13

功能重要性 7.98 洞察度 7.00

实现日志通道划分和请求日志分级系统，优化日志管理和可配置性。

该 PR 值得精读，特别是日志通道划分和分级系统的设计决策。关注 `RequestLogLevel` 枚举的使用、`log_request` 和 `log_request_error` 的实现方式（如级别过滤和错误处理），以及如何通过环境变量实现动态配置。同时，注意 review 中讨论的性能和兼容性权衡，为类似基础设施重构提供参考。

查看完整分析 GitHub 原始 PR FeatureLogginginfra

#7180 [XPU] Unify Spec and non-spec branch.(#6947)

作者 Jiajun-Ji · 合并时间 2026-04-16 14:58

重构重要性 6.68 洞察度 7.00

在XPU平台统一推测解码和非推测解码分支，新增草稿令牌验证算子。

该PR值得精读，重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计，这些决策体现了跨平台架构对齐和模块化设计。

查看完整分析 GitHub 原始 PR XPUSpeculative DecodingOP

#7429 [CI] Add approval check for logging-related modifications

作者 EmmonsCurse · 合并时间 2026-04-16 14:50

基础设施重要性 3.94 洞察度 3.00

在CI审批检查脚本中新增日志相关修改的审批检测逻辑。

该PR是典型的CI流程优化，适合基础设施维护者精读以了解审批检查机制。值得关注的设计决策包括：通过git diff过滤实现精准检测、排除脚本自身修改避免循环触发、以及如何平衡检测覆盖与误报风险。对于普通开发者，了解此变更可避免在修改日志代码时意外触发审批要求。

查看完整分析 GitHub 原始 PR CILogginginfra

#6798 [XPU] Split the block_attn operator into smaller operators

作者 RuohengMa · 合并时间 2026-04-16 14:28

性能优化重要性 7.69 洞察度 5.00

将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本，提升优化灵活性。

建议技术管理者关注此 PR 的设计决策：如何通过环境变量实现渐进式优化，以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑，并参考 `test_block_attn.py` 学习数值验证方法，同时注意 review 中提到的 bug 和依赖风险。

查看完整分析 GitHub 原始 PR XPUOptimizationOP

第 2 / 23 页 · 共 178 条

上一页 1 2 3 4 5 … 23 下一页

支持 Prhub ♥