Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-16
optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。

建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。

2026-04-15
功能 重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器,放宽配置限制并新增测试验证。

该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。

基础设施 重要性 4.54 洞察度 4.00

自动设置num_max_dispatch_tokens_per_rank参数,基于投机解码状态优化配置。

建议精读以了解FastDeploy配置自动化的设计模式,特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。

重构 重要性 8.09 洞察度 6.00

重构多模态处理器,抽取编码策略类并统一处理流程,减少重复代码。

该 PR 值得精读,特别是了解组合模式设计(Encoding 策略与 MultiModalProcessor 解耦)和配置驱动机制(MMModelConfig 注册表)。关注关键文件如 `multimodal_processor.py` 和 `encodings/` 目录,以及 review 中讨论的资源泄漏和边界 token 处理决策。

#7369 [BugFix] fix tool call parser

作者 luukunn · 合并时间 2026-04-15 16:21

缺陷修复 重要性 6.56 洞察度 5.00

修复 ErnieX1 工具调用解析器在流式场景中的空参数判断和结束标记处理问题。

建议精读此 PR,关注其如何通过精确的类型判断(None vs. 真值)和流式结束处理(使用 `rindex` 而非固定字符串)解决边界条件问题,可作为处理类似解析场景的参考设计。

缺陷修复 重要性 4.16 洞察度 4.00

修复禁用分块预填充时批处理令牌数限制,允许使用最大模型长度。

该PR是调度器配置的关键修复,值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑,以及EngineArgs和FDConfig的同步修改设计。

参与讨论