← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 19:21 同步状态：空闲下次计划：2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#7352 add ips check

作者 zhoutianzi666 · 合并时间 2026-04-13 15:24

功能重要性 4.00 洞察度 3.00

在API Server启动时添加Worker IP白名单检查，增强分布式推理安全性。

该PR代码简单，逻辑清晰，适合快速浏览以了解IP白名单检查的实现方式。值得关注的点是：1. 设计决策：选择在`main()`函数入口处进行验证，确保尽早拦截非法节点。2. 未采纳的优化建议：团队可能认为重复调用`get_host_ip()`的开销可忽略，或出于代码简洁性考虑。建议后续补充测试用例以覆盖IP匹配和不匹配的场景。

查看完整分析 GitHub 原始 PR APIServerFeatureSecurity

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式，以对齐训练推理一致性。

建议关注量化模式控制的设计决策，特别是环境变量与现有quant_config的整合方式，以及review中提到的逻辑不一致问题，以理解如何维护代码一致性和正确性。此PR值得精读，可学习训练推理对齐的实现模式。

查看完整分析 GitHub 原始 PR QuantizationMoERL

#7243 [Docs][BugFix] fix mla log

作者 chang-wenbin · 合并时间 2026-04-13 12:15

缺陷修复重要性 2.00 洞察度 3.00

修复MLA注意力后端日志格式，将参数化日志改为f-string并修正标点。

该PR变更简单，无需精读。值得关注的是fastdeploy-bot提出的性能建议与最终决策的对比，反映了团队在代码规范与开发便利性之间的权衡。

查看完整分析 GitHub 原始 PR bugfixOPOthers

#7348 [Cleanup] Replace torch proxy alias with public compat API

作者 ShigureNyako · 合并时间 2026-04-13 11:43

重构重要性 4.00 洞察度 3.00

将Paddle临时兼容别名替换为公共API，完成组织范围清理。

此PR值得快速浏览以了解API清理模式，但无需深究设计细节，因为变更简单直接；工程师可关注测试mock更新方式，确保测试隔离。

查看完整分析 GitHub 原始 PR RefactorOthersOP

#7029 [XPU] Refactor get_padding_offset to single kernel.

作者 Jiajun-Ji · 合并时间 2026-04-13 11:04

重构重要性 6.00 洞察度 6.00

重构 XPU get_padding_offset 为单内核实现，对齐 GPU 并优化性能。

建议技术管理者关注此 PR 的边界检查设计，工程师可精读内核合并的实现细节，特别是 shared memory 使用和同步策略，以了解 XPU 算子优化模式。

查看完整分析 GitHub 原始 PR XPUOPRefactor

2026-04-12

#7299 [Optim] Remove IPCLock between CacheManager and WorkerProcess

作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59

性能优化重要性 6.00 洞察度 5.00

移除CacheManager与WorkerProcess间的IPCLock进程间锁，优化性能并简化IPC组件。

建议精读以理解锁移除的设计决策，关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥，以及是否有隐式测试覆盖。对于风险较高的DP+EP配置，建议团队补充回归测试。

查看完整分析 GitHub 原始 PR OptimizationKVCacheEngine

2026-04-11

#7340 use self.hidden_size not use self.fd_config.model_config.hidden_size

作者 zhoutianzi666 · 合并时间 2026-04-11 22:39

重构重要性 3.00 洞察度 3.00

优化MoE层属性访问，使用缓存的self.hidden_size替代嵌套配置访问。

该PR变更简单直接，属于常规代码优化，无需深入精读。值得关注的点是： 1. 展示了在性能敏感代码中避免重复嵌套访问的设计模式。 2. 提醒了在修改代码时需同步更新相关测试的实践。建议工程师在类似场景中参考这种将配置属性缓存到类成员的做法。

查看完整分析 GitHub 原始 PR OptimizationMoERefactor

#7337 [RL]moe bf16 ep support paddle batch_gemm

作者 ckl117 · 合并时间 2026-04-11 21:51

功能重要性 6.00 洞察度 5.00

为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持，对齐训练实现。

建议技术管理者和工程师精读此PR，重点关注： 1. **设计决策**：为何选择batched_gemm而非原有compute_ffn，以及如何权衡CUDAGraph兼容性。 2. **风险点**：down_proj_bias处理缺失和外部依赖函数可用性，需确认是否在后续提交中修复。 3. **测试补充**：建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试，确保新路径正确性。 PR展示了推理与训练对齐的典型模式，值得学习其实现思路。

查看完整分析 GitHub 原始 PR RLMoEOptimization

第 7 / 23 页 · 共 178 条

上一页 1 … 5 6 7 8 9 … 23 下一页

支持 Prhub ♥