← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 23:39 同步状态：空闲下次计划：2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#7187 [XPU][Docs] Update Release2.5 Note

作者 iosmers · 合并时间 2026-04-07 18:45

文档重要性 4.00 洞察度 2.00

更新昆仑芯XPU文档至Release 2.5.0版本，修正版本号和部署命令。

此PR适合文档维护人员和测试人员精读，以了解版本更新细节和文档优化点；工程师可快速浏览部署命令部分，确保参数正确性，但无需深入技术分析。

查看完整分析 GitHub 原始 PR XPUdocsOthers

#7209 [Metax][Fix] add compilation option

作者 StareAtYou · 合并时间 2026-04-07 17:43

基础设施重要性 2.00 洞察度 2.00

为Metax GPU编译添加-Wno-non-pod-varargs选项以抑制警告。

该PR变更简单直接，无需深入精读。值得关注的是fastdeploy-bot提出的配置一致性建议，这反映了跨硬件平台编译配置的统一性考量，建议后续验证Metax GPU是否确实需要-Xcompiler前缀。

查看完整分析 GitHub 原始 PR MetaxinfraOptimization

#7136 [Optimization]【Hackathon 10th Spring No.49】GPU ngram_match: BlockScan Phase 2 -optimized

作者 cloudforge1 · 合并时间 2026-04-07 16:36

性能优化重要性 8.00 洞察度 8.00

GPU ngram_match kernel 通过 CUB BlockScan 并行化 Phase 2，实现高达 14 倍加速并消除 GPU-CPU 同步。

该 PR 值得精读，特别是对于从事 GPU 高性能计算和 speculative decoding 的工程师。关注点包括：CUB BlockScan 在阈值约束下的应用、atomicMin64 CAS 实现的无锁设计、以及 Phase 1/2 分离的架构权衡。建议结合测试用例理解边界条件处理。

查看完整分析 GitHub 原始 PR OptimizationSpeculative DecodingGPU

#7147 [Others] Fix typo

作者 NKNaN · 合并时间 2026-04-07 16:30

其他重要性 1.00 洞察度 1.00

修复拼写错误，更正变量名和文件名中的 typo。

这是一个简单的拼写修复 PR，无需深入精读，但可作为代码维护的参考案例。

查看完整分析 GitHub 原始 PR Others

#7211 [benchmark] update tools

作者 ZhangYulongg · 合并时间 2026-04-07 16:25

功能重要性 4.00 洞察度 3.00

新增随机token_ids基准测试数据集，支持纯token输入的性能评估。

该PR值得快速浏览，特别是关注RandomTokenDataset的实现和random_flag的处理逻辑。设计决策简单直接，但需要注意review中提到的随机数种子问题是否已修复。对于负责基准测试的工程师，建议检查随机数生成逻辑以确保数据多样性。

查看完整分析 GitHub 原始 PR BenchmarkOptimizationtest

#7130 [BugFix] Enable moe_gate_fp32 using FD_ENABLE_RL

作者 Sunny-bot1 · 合并时间 2026-04-07 12:07

缺陷修复重要性 5.00 洞察度 4.00

修复RL场景下MoE门控权重类型不一致问题，统一通过FD_ENABLE_RL环境变量控制。

建议RL团队和MoE模型开发者仔细阅读此PR，了解从dynamic_load_weight到FD_ENABLE_RL的配置迁移要求。关注fastdeploy-bot提出的兼容性问题，评估现有RL训练流程是否需要调整。代码变更简洁，适合快速理解环境变量如何影响模型精度配置。

查看完整分析 GitHub 原始 PR RLModelsbugfix

#7201 [OP][Optimization] Remove ENABLE_PREFILL template parameter in multi_query_append_attention_warp1_4_kernel

作者 zhoutianzi666 · 合并时间 2026-04-07 11:21

重构重要性 6.00 洞察度 5.00

删除多查询注意力kernel中的ENABLE_PREFILL模板参数，统一内存布局以简化代码。

建议涉及attention kernel和speculative decoding的工程师精读此PR，关注模板参数移除带来的设计简化，以及分阶段重构的策略，以理解代码演进方向。

查看完整分析 GitHub 原始 PR OPOptimizationSpeculative Decoding

#7198 [CI] Improve Code Prepare stability and cleanup logic

作者 EmmonsCurse · 合并时间 2026-04-07 10:31

基础设施重要性 4.00 洞察度 4.00

优化CI Code Prepare阶段的清理逻辑，提升自托管runner上的稳定性。

建议CI维护者和负责基础设施的工程师精读此PR，关注其设计决策如多层清理策略和错误处理改进。对于普通开发者，了解CI稳定性的提升即可。

查看完整分析 GitHub 原始 PR CIinfraOptimization

第 14 / 23 页 · 共 179 条

上一页 1 … 12 13 14 15 16 … 23 下一页

支持 Prhub ♥