Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 22:32 同步状态:空闲 下次计划:2026-04-18 23:32

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-09
测试 重要性 4.00 洞察度 5.00

为FastDeploy引擎模块添加全面单元测试,覆盖率从51%提升至92%。

建议engine模块开发者和测试工程师精读此PR,学习如何为复杂引擎编写全面单元测试,特别是mock策略和配置构造。关注review中讨论的patch技巧,避免环境变量污染和测试不稳定性陷阱。

#7264 [XPU][CI] lock xvllm version for fix bug

作者 plusNew001 · 合并时间 2026-04-09 12:44

基础设施 重要性 3.00 洞察度 4.00

锁定XPU算子依赖版本并移除硬编码RDMA网卡配置,提升CI稳定性。

该PR变更简单但涉及CI基础设施,建议关注环境变量恢复逻辑的完整性。对于维护XPU CI的工程师,值得查看tests/xpu_ci/conftest.py中restore_env()的实现,确保BKCL_RDMA_NICS能正确恢复。锁定版本的做法值得借鉴,但需确保有相应的版本管理和回滚机制。

#7251 [BugFix] detection jinja2

作者 BingooYang · 合并时间 2026-04-09 11:30

缺陷修复 重要性 3.00 洞察度 2.00

为 GPU 算子生成脚本添加 jinja2 依赖检查,提供更清晰的编译错误提示。

该 PR 变更简单直接,无需精读。对于维护者,值得关注 fastdeploy-bot 提出的日志记录建议,虽未采纳但可作为未来类似改进的参考。对于新贡献者,可作为学习如何添加友好错误提示的示例。

缺陷修复 重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。

该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

#7218 [RL] support moe-topk use topk_reduce_func

作者 zoooo0820 · 合并时间 2026-04-09 11:01

功能 重要性 6.00 洞察度 6.00

支持 MoE TopK 使用自定义归约函数,提升数值准确性并移除旧实现。

建议精读此 PR 以理解 MoE TopK 自定义归一化机制,特别关注 get_moe_scores 函数中的逻辑和 topk_reduce_func 参数的设计。同时,注意 review 中讨论的风险点,确保在部署时正确配置参数,并考虑为其他模型添加 topk_reduce_func 支持。

优化DSA注意力后端,移除CUDA Graph捕获时的同步操作和不必要的内存拷贝。

该PR值得精读,尤其是view替代transpose+contiguous的设计决策。关注点: 1. 理解view操作在维度为1时的安全性原理,以及如何通过断言确保条件成立。 2. 学习fastdeploy-bot的review分析,包括stride计算和与C++ kernel的交互细节。 3. 注意优化对模型特定形状(头数为1)的依赖,避免盲目复制到其他场景。

2026-04-08
缺陷修复 重要性 6.00 洞察度 5.00

修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。

建议从事 GPU kernel 开发或模型部署的工程师精读此 PR,重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡,以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。

参与讨论