Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 21:29 同步状态:空闲 下次计划:2026-04-18 22:29

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-10
optimization 重要性 6.00 洞察度 5.00

移除QKRMSNorm算子对CUDA Graph的条件限制,使其在Prefill和Decode阶段均启用Triton融合优化。

该PR值得精读,重点关注: 1. 设计决策:移除step_use_cudagraph条件以扩展Triton融合算子的使用场景,体现了性能优化与条件简化的权衡。 2. 风险点:需关注大batch下的精度验证是否充分,以及历史限制原因是否已解决。 3. 建议:结合review讨论,后续可考虑补充Prefill阶段大batch的精度测试,并澄清历史背景。

#7302 [Docs] Update Release Note

作者 EmmonsCurse · 合并时间 2026-04-10 15:26

文档 重要性 3.00 洞察度 2.00

更新FastDeploy 2.5.0版本文档,同步GPU安装指南和Docker配置。

该PR属于常规文档维护,无需精读。值得关注的是文档中明确Python 3.10限制的设计决策,这反映了项目对版本兼容性的严格管理。

#7262 [XPU][Docs] Update Release Note

作者 iosmers · 合并时间 2026-04-10 15:22

文档 重要性 4.00 洞察度 5.00

更新XPU部署文档中的RDMA网卡配置和术语,并调整相关脚本输出格式。

建议技术管理者优先审查脚本输出兼容性风险,确保CI测试适配新格式;工程师可精读文档变更以了解XPU部署最佳实践,但无需深入代码逻辑。关注review中未解决的配置通用性问题,未来文档更新应考虑使用占位符提高可移植性。

#6877 [Loader]add multi-thread model loading

作者 bukejiyu · 合并时间 2026-04-10 14:40

功能 重要性 6.00 洞察度 5.00

为safetensors权重加载添加可选多线程支持,提升NVME SSD设备下模型加载速度。

建议精读此PR,关注多线程设计如何平衡性能与内存,以及配置从API Server到Worker的传递链路实现。需注意review中未解决的参数验证和异常处理问题,可作为后续改进点。

功能 重要性 6.00 洞察度 6.00

支持通过CLI配置量化参数并添加CUDA图捕获顺序验证,提升配置灵活性和系统可靠性。

建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法,关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。

缺陷修复 重要性 6.00 洞察度 5.00

修复GPU异步拷贝竞态和Flash Mask Attention共享内存越界两个关键bug。

该PR值得精读,特别是mainloop_attn.hpp中的边界处理逻辑,展示了在CUDA kernel中处理非对齐序列长度的通用模式。关注同步拷贝与性能的权衡,以及共享内存管理的安全性设计。

文档 重要性 4.00 洞察度 3.00

新增两个Claude Code skills:LLM模型集成指南和HTML研究报告生成工具。

对于需要集成新模型或生成研究报告的开发者,推荐精读SKILL.md和references下的模板文件,以了解最佳实践和设计决策。PR重点在于工作流程定义和模板设计,值得关注其结构化方法。

参与讨论