Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 23:39 同步状态:空闲 下次计划:2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-08

#7102 [Engine][DataProcessor] fix decode token

作者 zhuangzhuang12 · 合并时间 2026-04-08 15:41

缺陷修复 重要性 6.00 洞察度 5.00

修复流式解码结束时未解码令牌丢失问题,简化逻辑并添加单元测试。

该 PR 值得精读,特别是关注 `_decode_token` 中 force decode 逻辑的简化设计,以及单元测试如何模拟增量解码和边界条件,可作为解码模块改进的参考案例。

基础设施 重要性 3.00 洞察度 2.00

将单元测试覆盖率CI的共享内存从64GB增至128GB,并添加ulimit限制以提升并行测试稳定性。

该PR变更简单直接,无需深入精读。对于技术管理者,可关注CI资源调优的趋势;对于工程师,了解共享内存和ulimit在并行测试中的作用即可。建议快速合并,但注意更新PR描述以保持文档完整性。

功能 重要性 7.00 洞察度 6.00

通过引入enable_mm_runtime属性,支持多模态模型以纯文本模式部署,提升QPS。

该PR值得精读,因为它展示了如何通过配置分离模型能力与运行时状态的设计模式,适用于类似优化场景。建议关注FDConfig中计算属性的封装、postprocess中的动态调整逻辑,以及跨模块一致性更改的策略,这些设计决策对系统架构优化有参考价值。

重构 重要性 6.00 洞察度 5.00

统一多模态图像处理器目录,新增MultiModalProcessor作为统一入口。

建议精读以了解多模态处理器的统一设计,重点关注MultiModalProcessor的分发逻辑和兼容性处理。注意review中讨论的bug(如多图处理)和类型标注问题,在后续开发中避免类似错误,并考虑补充缺失的测试覆盖。

2026-04-07

#7204 [Feature]distinguish whl version

作者 ChowMingSing · 合并时间 2026-04-07 20:38

功能 重要性 4.00 洞察度 3.00

将 FastDeploy 的 wheel 包从纯 Python 包改为平台相关包,动态生成标签以准确反映构建环境。

该 PR 值得快速浏览,以了解构建配置的改进方向。关键设计决策是使用标准库 packaging.tags 动态生成标签,替代硬编码值,这提升了跨环境兼容性。建议关注 fastdeploy-bot 提出的依赖声明和异常处理建议,可在后续 PR 中跟进。

功能 重要性 5.00 洞察度 4.00

为推测解码自动缩放CUDA图捕获尺寸,简化用户配置。

该PR值得精读,特别是config.py中捕获尺寸缩放和映射逻辑的设计,展示了如何将用户配置自动化集成到现有框架中。关注init_with_cudagrpah_size方法的新增参数处理和real_bsz_to_captured_size映射的构建方式。

#7053 [Feature] support blackwell gemm in ht

作者 lizhenyun01 · 合并时间 2026-04-07 19:52

功能 重要性 6.00 洞察度 6.00

新增Blackwell架构MoE GEMM后端支持,通过环境变量启用以提升高吞吐推理性能。

该PR值得精读,尤其是fused_moe_blackwell_backend.py中的后端实现,可学习高性能MoE计算设计;关注环境变量使用和量化集成方式,以及review中提到的scale处理潜在问题,以便在类似功能开发中规避风险。

参与讨论