Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 23:39 同步状态:空闲 下次计划:2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-07

#7187 [XPU][Docs] Update Release2.5 Note

作者 iosmers · 合并时间 2026-04-07 18:45

文档 重要性 4.00 洞察度 2.00

更新昆仑芯XPU文档至Release 2.5.0版本,修正版本号和部署命令。

此PR适合文档维护人员和测试人员精读,以了解版本更新细节和文档优化点;工程师可快速浏览部署命令部分,确保参数正确性,但无需深入技术分析。

#7209 [Metax][Fix] add compilation option

作者 StareAtYou · 合并时间 2026-04-07 17:43

基础设施 重要性 2.00 洞察度 2.00

为Metax GPU编译添加-Wno-non-pod-varargs选项以抑制警告。

该PR变更简单直接,无需深入精读。值得关注的是fastdeploy-bot提出的配置一致性建议,这反映了跨硬件平台编译配置的统一性考量,建议后续验证Metax GPU是否确实需要-Xcompiler前缀。

性能优化 重要性 8.00 洞察度 8.00

GPU ngram_match kernel 通过 CUB BlockScan 并行化 Phase 2,实现高达 14 倍加速并消除 GPU-CPU 同步。

该 PR 值得精读,特别是对于从事 GPU 高性能计算和 speculative decoding 的工程师。关注点包括:CUB BlockScan 在阈值约束下的应用、atomicMin64 CAS 实现的无锁设计、以及 Phase 1/2 分离的架构权衡。建议结合测试用例理解边界条件处理。

#7147 [Others] Fix typo

作者 NKNaN · 合并时间 2026-04-07 16:30

其他 重要性 1.00 洞察度 1.00

修复拼写错误,更正变量名和文件名中的 typo。

这是一个简单的拼写修复 PR,无需深入精读,但可作为代码维护的参考案例。

#7211 [benchmark] update tools

作者 ZhangYulongg · 合并时间 2026-04-07 16:25

功能 重要性 4.00 洞察度 3.00

新增随机token_ids基准测试数据集,支持纯token输入的性能评估。

该PR值得快速浏览,特别是关注RandomTokenDataset的实现和random_flag的处理逻辑。设计决策简单直接,但需要注意review中提到的随机数种子问题是否已修复。对于负责基准测试的工程师,建议检查随机数生成逻辑以确保数据多样性。

#7130 [BugFix] Enable moe_gate_fp32 using FD_ENABLE_RL

作者 Sunny-bot1 · 合并时间 2026-04-07 12:07

缺陷修复 重要性 5.00 洞察度 4.00

修复RL场景下MoE门控权重类型不一致问题,统一通过FD_ENABLE_RL环境变量控制。

建议RL团队和MoE模型开发者仔细阅读此PR,了解从dynamic_load_weight到FD_ENABLE_RL的配置迁移要求。关注fastdeploy-bot提出的兼容性问题,评估现有RL训练流程是否需要调整。代码变更简洁,适合快速理解环境变量如何影响模型精度配置。

删除多查询注意力kernel中的ENABLE_PREFILL模板参数,统一内存布局以简化代码。

建议涉及attention kernel和speculative decoding的工程师精读此PR,关注模板参数移除带来的设计简化,以及分阶段重构的策略,以理解代码演进方向。

参与讨论