← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 21:29 同步状态：空闲下次计划：2026-04-18 22:29

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#7213 [Optimization] Use triton qk_norm both in Prefill and Decode.

作者 K11OntheBoat · 合并时间 2026-04-10 15:44

optimization 重要性 6.00 洞察度 5.00

移除QKRMSNorm算子对CUDA Graph的条件限制，使其在Prefill和Decode阶段均启用Triton融合优化。

该PR值得精读，重点关注： 1. 设计决策：移除step_use_cudagraph条件以扩展Triton融合算子的使用场景，体现了性能优化与条件简化的权衡。 2. 风险点：需关注大batch下的精度验证是否充分，以及历史限制原因是否已解决。 3. 建议：结合review讨论，后续可考虑补充Prefill阶段大batch的精度测试，并澄清历史背景。

查看完整分析 GitHub 原始 PR OptimizationOPModels

#7302 [Docs] Update Release Note

作者 EmmonsCurse · 合并时间 2026-04-10 15:26

文档重要性 3.00 洞察度 2.00

更新FastDeploy 2.5.0版本文档，同步GPU安装指南和Docker配置。

该PR属于常规文档维护，无需精读。值得关注的是文档中明确Python 3.10限制的设计决策，这反映了项目对版本兼容性的严格管理。

查看完整分析 GitHub 原始 PR docsinfraOthers

#7262 [XPU][Docs] Update Release Note

作者 iosmers · 合并时间 2026-04-10 15:22

文档重要性 4.00 洞察度 5.00

更新XPU部署文档中的RDMA网卡配置和术语，并调整相关脚本输出格式。

建议技术管理者优先审查脚本输出兼容性风险，确保CI测试适配新格式；工程师可精读文档变更以了解XPU部署最佳实践，但无需深入代码逻辑。关注review中未解决的配置通用性问题，未来文档更新应考虑使用占位符提高可移植性。

查看完整分析 GitHub 原始 PR XPUdocsCI

#6877 [Loader]add multi-thread model loading

作者 bukejiyu · 合并时间 2026-04-10 14:40

功能重要性 6.00 洞察度 5.00

为safetensors权重加载添加可选多线程支持，提升NVME SSD设备下模型加载速度。

建议精读此PR，关注多线程设计如何平衡性能与内存，以及配置从API Server到Worker的传递链路实现。需注意review中未解决的参数验证和异常处理问题，可作为后续改进点。

查看完整分析 GitHub 原始 PR LoaderOptimizationFeature

#7281 [FDConfig] Support CLI args for quantization params and add cudagraph validation

作者 Deleter-D · 合并时间 2026-04-10 14:13

功能重要性 6.00 洞察度 6.00

支持通过CLI配置量化参数并添加CUDA图捕获顺序验证，提升配置灵活性和系统可靠性。

建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法，关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。

查看完整分析 GitHub 原始 PR QuantizationGraph OptimizationFeature

#7263 [benchmark] Disable fixed random seed in benchmark_dataset.py

作者 ZhangYulongg · 合并时间 2026-04-10 13:56

其他重要性 2.00 洞察度 2.00

注释掉基准测试中的固定随机种子，使测试输入更具随机性。

这是一个简单的配置调整，无需深入阅读代码。建议关注AI Review提供的PR文档规范建议，这对团队协作有参考价值。

查看完整分析 GitHub 原始 PR BenchmarkOthers

#7221 [BugFix] Fix Async D2H copy bug & flash mash atten cache V out of bound bug

作者 ming1753 · 合并时间 2026-04-10 11:31

缺陷修复重要性 6.00 洞察度 5.00

修复GPU异步拷贝竞态和Flash Mask Attention共享内存越界两个关键bug。

该PR值得精读，特别是mainloop_attn.hpp中的边界处理逻辑，展示了在CUDA kernel中处理非对齐序列长度的通用模式。关注同步拷贝与性能的权衡，以及共享内存管理的安全性设计。

查看完整分析 GitHub 原始 PR bugfixGPUOP

#7287 [Docs][Feature]add fastdeploy-llm-integration skill & research-report skill

作者 chang-wenbin · 合并时间 2026-04-10 11:24

文档重要性 4.00 洞察度 3.00

新增两个Claude Code skills：LLM模型集成指南和HTML研究报告生成工具。

对于需要集成新模型或生成研究报告的开发者，推荐精读SKILL.md和references下的模板文件，以了解最佳实践和设计决策。PR重点在于工作流程定义和模板设计，值得关注其结构化方法。

查看完整分析 GitHub 原始 PR docsFeatureOthers

第 9 / 23 页 · 共 179 条

上一页 1 … 7 8 9 10 11 … 23 下一页

支持 Prhub ♥