← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 23:39 同步状态：空闲下次计划：2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#7102 [Engine][DataProcessor] fix decode token

作者 zhuangzhuang12 · 合并时间 2026-04-08 15:41

缺陷修复重要性 6.00 洞察度 5.00

修复流式解码结束时未解码令牌丢失问题，简化逻辑并添加单元测试。

该 PR 值得精读，特别是关注 `_decode_token` 中 force decode 逻辑的简化设计，以及单元测试如何模拟增量解码和边界条件，可作为解码模块改进的参考案例。

查看完整分析 GitHub 原始 PR bugfixDataProcessortest

#7231 [Speculative Decoding] Remove arctic_inference deps

作者 Deleter-D · 合并时间 2026-04-08 15:25

重构重要性 3.00 洞察度 2.00

将 arctic_inference 从硬依赖改为可选依赖，仅在 Suffix Decoding 功能使用时按需安装。

该 PR 变更简单，值得快速浏览以了解依赖管理策略。关注点：版本号不一致问题是否需后续修复，以及文档是否需同步更新。

查看完整分析 GitHub 原始 PR Speculative DecodingOptimizationOthers

#7227 [CI] increase shm-size to 128G in _unit_test_coverage.yml

作者 EmmonsCurse · 合并时间 2026-04-08 11:35

基础设施重要性 3.00 洞察度 2.00

将单元测试覆盖率CI的共享内存从64GB增至128GB，并添加ulimit限制以提升并行测试稳定性。

该PR变更简单直接，无需深入精读。对于技术管理者，可关注CI资源调优的趋势；对于工程师，了解共享内存和ulimit在并行测试中的作用即可。建议快速合并，但注意更新PR描述以保持文档完整性。

查看完整分析 GitHub 原始 PR CIinfraOptimization

#7183 [Optimization] Enable text-only deployment for multimodal models

作者 K11OntheBoat · 合并时间 2026-04-08 11:25

功能重要性 7.00 洞察度 6.00

通过引入enable_mm_runtime属性，支持多模态模型以纯文本模式部署，提升QPS。

该PR值得精读，因为它展示了如何通过配置分离模型能力与运行时状态的设计模式，适用于类似优化场景。建议关注FDConfig中计算属性的封装、postprocess中的动态调整逻辑，以及跨模块一致性更改的策略，这些设计决策对系统架构优化有参考价值。

查看完整分析 GitHub 原始 PR OptimizationFeatureModels

#7109 [DataProcessor] Move image_processor to unified directory and add MultiModalProcessor

作者 luukunn · 合并时间 2026-04-08 10:16

重构重要性 6.00 洞察度 5.00

统一多模态图像处理器目录，新增MultiModalProcessor作为统一入口。

建议精读以了解多模态处理器的统一设计，重点关注MultiModalProcessor的分发逻辑和兼容性处理。注意review中讨论的bug（如多图处理）和类型标注问题，在后续开发中避免类似错误，并考虑补充缺失的测试覆盖。

查看完整分析 GitHub 原始 PR DataProcessorRefactorFeature

2026-04-07

#7204 [Feature]distinguish whl version

作者 ChowMingSing · 合并时间 2026-04-07 20:38

功能重要性 4.00 洞察度 3.00

将 FastDeploy 的 wheel 包从纯 Python 包改为平台相关包，动态生成标签以准确反映构建环境。

该 PR 值得快速浏览，以了解构建配置的改进方向。关键设计决策是使用标准库 packaging.tags 动态生成标签，替代硬编码值，这提升了跨环境兼容性。建议关注 fastdeploy-bot 提出的依赖声明和异常处理建议，可在后续 PR 中跟进。

查看完整分析 GitHub 原始 PR FeatureCIinfra

#7215 [Speculative Decoding] Auto-scale CUDA graph capture sizes for speculative decoding

作者 Deleter-D · 合并时间 2026-04-07 20:22

功能重要性 5.00 洞察度 4.00

为推测解码自动缩放CUDA图捕获尺寸，简化用户配置。

该PR值得精读，特别是config.py中捕获尺寸缩放和映射逻辑的设计，展示了如何将用户配置自动化集成到现有框架中。关注init_with_cudagrpah_size方法的新增参数处理和real_bsz_to_captured_size映射的构建方式。

查看完整分析 GitHub 原始 PR Speculative DecodingOptimizationGPU

#7053 [Feature] support blackwell gemm in ht

作者 lizhenyun01 · 合并时间 2026-04-07 19:52

功能重要性 6.00 洞察度 6.00

新增Blackwell架构MoE GEMM后端支持，通过环境变量启用以提升高吞吐推理性能。

该PR值得精读，尤其是fused_moe_blackwell_backend.py中的后端实现，可学习高性能MoE计算设计；关注环境变量使用和量化集成方式，以及review中提到的scale处理潜在问题，以便在类似功能开发中规避风险。

查看完整分析 GitHub 原始 PR FeatureOptimizationMoE

第 13 / 23 页 · 共 179 条

上一页 1 … 11 12 13 14 15 … 23 下一页

支持 Prhub ♥