← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 22:32 同步状态：空闲下次计划：2026-04-18 23:32

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#6730 [CI]【Hackathon 10th Spring No.33】config 单测补充

作者 cloudforge1 · 合并时间 2026-04-09 14:28

测试重要性 4.00 洞察度 5.00

为 config.py 补充单元测试，覆盖率从 83% 提升至 99%。

该 PR 值得精读，特别是对于学习如何高效设计单元测试、使用工厂函数和 Mock 技术，以及代码精简策略。关注测试类结构和覆盖率提升方法。

查看完整分析 GitHub 原始 PR CItest

#6771 [CI]【Hackathon 10th Spring No.29】engine unit test

作者 cloudforge1 · 合并时间 2026-04-09 13:46

测试重要性 4.00 洞察度 5.00

为FastDeploy引擎模块添加全面单元测试，覆盖率从51%提升至92%。

建议engine模块开发者和测试工程师精读此PR，学习如何为复杂引擎编写全面单元测试，特别是mock策略和配置构造。关注review中讨论的patch技巧，避免环境变量污染和测试不稳定性陷阱。

查看完整分析 GitHub 原始 PR CItestEngine

#7264 [XPU][CI] lock xvllm version for fix bug

作者 plusNew001 · 合并时间 2026-04-09 12:44

基础设施重要性 3.00 洞察度 4.00

锁定XPU算子依赖版本并移除硬编码RDMA网卡配置，提升CI稳定性。

该PR变更简单但涉及CI基础设施，建议关注环境变量恢复逻辑的完整性。对于维护XPU CI的工程师，值得查看tests/xpu_ci/conftest.py中restore_env()的实现，确保BKCL_RDMA_NICS能正确恢复。锁定版本的做法值得借鉴，但需确保有相应的版本管理和回滚机制。

查看完整分析 GitHub 原始 PR XPUCIinfra

#7251 [BugFix] detection jinja2

作者 BingooYang · 合并时间 2026-04-09 11:30

缺陷修复重要性 3.00 洞察度 2.00

为 GPU 算子生成脚本添加 jinja2 依赖检查，提供更清晰的编译错误提示。

该 PR 变更简单直接，无需精读。对于维护者，值得关注 fastdeploy-bot 提出的日志记录建议，虽未采纳但可作为未来类似改进的参考。对于新贡献者，可作为学习如何添加友好错误提示的示例。

查看完整分析 GitHub 原始 PR bugfixOPOthers

#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn

作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05

缺陷修复重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误，放宽shape校验以兼容预分配输入。

该PR值得精读，重点关注：1. Python侧切片方案的设计权衡，以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理，是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

查看完整分析 GitHub 原始 PR bugfixOPGPU

#7218 [RL] support moe-topk use topk_reduce_func

作者 zoooo0820 · 合并时间 2026-04-09 11:01

功能重要性 6.00 洞察度 6.00

支持 MoE TopK 使用自定义归约函数，提升数值准确性并移除旧实现。

建议精读此 PR 以理解 MoE TopK 自定义归一化机制，特别关注 get_moe_scores 函数中的逻辑和 topk_reduce_func 参数的设计。同时，注意 review 中讨论的风险点，确保在部署时正确配置参数，并考虑为其他模型添加 topk_reduce_func 支持。

查看完整分析 GitHub 原始 PR MoEOptimizationFeature

#7253 [DeepSeekV3.2][Graph Optimization]Remove synchronous operation to avoid capture fail and unnecessary contiguous in DSA Backend

作者 ShaneGZhu · 合并时间 2026-04-09 11:00

optimization 重要性 5.00 洞察度 6.00

优化DSA注意力后端，移除CUDA Graph捕获时的同步操作和不必要的内存拷贝。

该PR值得精读，尤其是view替代transpose+contiguous的设计决策。关注点： 1. 理解view操作在维度为1时的安全性原理，以及如何通过断言确保条件成立。 2. 学习fastdeploy-bot的review分析，包括stride计算和与C++ kernel的交互细节。 3. 注意优化对模型特定形状（头数为1）的依赖，避免盲目复制到其他场景。

查看完整分析 GitHub 原始 PR OptimizationGraph OptimizationOP

2026-04-08

#7252 [BugFix]Fix DSA multi-batch inference deployment

作者 chang-wenbin · 合并时间 2026-04-08 20:21

缺陷修复重要性 6.00 洞察度 5.00

修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。

建议从事 GPU kernel 开发或模型部署的工程师精读此 PR，重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡，以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。

查看完整分析 GitHub 原始 PR bugfixGPUOP

第 11 / 23 页 · 共 179 条

上一页 1 … 9 10 11 12 13 … 23 下一页

支持 Prhub ♥