← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子，优化分布式推理性能。

建议精读此 PR，重点关注融合算子的设计实现（如 `flashinfer_comm_fusion.py` 中的 workspace 管理）、prefix 检查机制如何与模型组网集成，以及 review 中讨论的 fallback 处理权衡。

查看完整分析 GitHub 原始 PR OptimizationOPModels

2026-04-15

#7412 [PD Disaggregation] Enable PD deployment without Router

作者 juncaipeng · 合并时间 2026-04-15 20:13

功能重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器，放宽配置限制并新增测试验证。

该PR值得精读，特别是配置松耦合的设计决策（如`init_pd_info`逻辑调整）和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡，以指导类似部署场景的实现。

查看完整分析 GitHub 原始 PR FeatureSchedulerEngine

#7378 [RL] Add clear_graph_opt_backend for glm4_mtp

作者 Deleter-D · 合并时间 2026-04-15 19:44

缺陷修复重要性 4.88 洞察度 2.00

修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。

该PR值得快速浏览以了解拼写修正和模型方法扩展，但无需深入分析设计决策；关注点在于代码一致性和测试更新。

查看完整分析 GitHub 原始 PR RLbugfixModels

#7237 [Optimization] Auto set num_max_dispatch_tokens_per_rank

作者 RichardWooSJTU · 合并时间 2026-04-15 19:13

基础设施重要性 4.54 洞察度 4.00

自动设置num_max_dispatch_tokens_per_rank参数，基于投机解码状态优化配置。

建议精读以了解FastDeploy配置自动化的设计模式，特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。

查看完整分析 GitHub 原始 PR OptimizationSpeculative Decodinginfra

#7298 [DataProcessor] Refactor multimodal processor: extract encoding strategies and unify MM processing pipeline

作者 luukunn · 合并时间 2026-04-15 19:01

重构重要性 8.09 洞察度 6.00

重构多模态处理器，抽取编码策略类并统一处理流程，减少重复代码。

该 PR 值得精读，特别是了解组合模式设计（Encoding 策略与 MultiModalProcessor 解耦）和配置驱动机制（MMModelConfig 注册表）。关注关键文件如 `multimodal_processor.py` 和 `encodings/` 目录，以及 review 中讨论的资源泄漏和边界 token 处理决策。

查看完整分析 GitHub 原始 PR DataProcessorRefactorModels

#7413 [Others] modify flash_mask version

作者 BingooYang · 合并时间 2026-04-15 18:16

基础设施重要性 1.70 洞察度 1.00

升级 flash_mask 依赖版本并更新下载源 URL。

这是一个简单的依赖更新 PR，无需精读。值得关注的是依赖版本管理实践，建议在类似变更中完善 PR 描述并考虑添加测试验证。

查看完整分析 GitHub 原始 PR Othersinfra

#7369 [BugFix] fix tool call parser

作者 luukunn · 合并时间 2026-04-15 16:21

缺陷修复重要性 6.56 洞察度 5.00

修复 ErnieX1 工具调用解析器在流式场景中的空参数判断和结束标记处理问题。

建议精读此 PR，关注其如何通过精确的类型判断（None vs. 真值）和流式结束处理（使用 `rindex` 而非固定字符串）解决边界条件问题，可作为处理类似解析场景的参考设计。

查看完整分析 GitHub 原始 PR bugfixAPIServerDataProcessor

#7407 [BugFix][Scheduler]Fix FD_DISABLE_CHUNKED_PREFILL max_num_batched_tokens limit

作者 chang-wenbin · 合并时间 2026-04-15 15:55

缺陷修复重要性 4.16 洞察度 4.00

修复禁用分块预填充时批处理令牌数限制，允许使用最大模型长度。

该PR是调度器配置的关键修复，值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑，以及EngineArgs和FDConfig的同步修改设计。

查看完整分析 GitHub 原始 PR bugfixSchedulerEngine

第 3 / 23 页 · 共 178 条

上一页 1 2 3 4 5 … 23 下一页

支持 Prhub ♥