Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-13

#7352 add ips check

作者 zhoutianzi666 · 合并时间 2026-04-13 15:24

功能 重要性 4.00 洞察度 3.00

在API Server启动时添加Worker IP白名单检查,增强分布式推理安全性。

该PR代码简单,逻辑清晰,适合快速浏览以了解IP白名单检查的实现方式。值得关注的点是:1. 设计决策:选择在`main()`函数入口处进行验证,确保尽早拦截非法节点。2. 未采纳的优化建议:团队可能认为重复调用`get_host_ip()`的开销可忽略,或出于代码简洁性考虑。建议后续补充测试用例以覆盖IP匹配和不匹配的场景。

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能 重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式,以对齐训练推理一致性。

建议关注量化模式控制的设计决策,特别是环境变量与现有quant_config的整合方式,以及review中提到的逻辑不一致问题,以理解如何维护代码一致性和正确性。此PR值得精读,可学习训练推理对齐的实现模式。

#7243 [Docs][BugFix] fix mla log

作者 chang-wenbin · 合并时间 2026-04-13 12:15

缺陷修复 重要性 2.00 洞察度 3.00

修复MLA注意力后端日志格式,将参数化日志改为f-string并修正标点。

该PR变更简单,无需精读。值得关注的是fastdeploy-bot提出的性能建议与最终决策的对比,反映了团队在代码规范与开发便利性之间的权衡。

2026-04-12
性能优化 重要性 6.00 洞察度 5.00

移除CacheManager与WorkerProcess间的IPCLock进程间锁,优化性能并简化IPC组件。

建议精读以理解锁移除的设计决策,关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥,以及是否有隐式测试覆盖。对于风险较高的DP+EP配置,建议团队补充回归测试。

2026-04-11
重构 重要性 3.00 洞察度 3.00

优化MoE层属性访问,使用缓存的self.hidden_size替代嵌套配置访问。

该PR变更简单直接,属于常规代码优化,无需深入精读。值得关注的点是: 1. 展示了在性能敏感代码中避免重复嵌套访问的设计模式。 2. 提醒了在修改代码时需同步更新相关测试的实践。 建议工程师在类似场景中参考这种将配置属性缓存到类成员的做法。

#7337 [RL]moe bf16 ep support paddle batch_gemm

作者 ckl117 · 合并时间 2026-04-11 21:51

功能 重要性 6.00 洞察度 5.00

为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持,对齐训练实现。

建议技术管理者和工程师精读此PR,重点关注: 1. **设计决策**:为何选择batched_gemm而非原有compute_ffn,以及如何权衡CUDAGraph兼容性。 2. **风险点**:down_proj_bias处理缺失和外部依赖函数可用性,需确认是否在后续提交中修复。 3. **测试补充**:建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试,确保新路径正确性。 PR展示了推理与训练对齐的典型模式,值得学习其实现思路。

参与讨论