Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-03-27

#7049 [XPU] Fix speculate schedule

作者 cmcamdy · 合并时间 2026-03-27 18:28

缺陷修复 重要性 5.00 洞察度 5.00

修复XPU推测调度缓存内核bug,优化内存和线程处理。

建议工程师精读内核代码变更,特别是线程分配和内存访问优化部分,这些是低层性能关键点。对于维护XPU相关代码的团队,此PR提供了内存管理和并发处理的参考,值得关注数组大小限制可能带来的约束。

性能优化 重要性 6.00 洞察度 6.00

优化 GPU kernel 以提升 SwiGLU FP8 量化性能,测试提速 20%-30%。

值得精读,特别是 CUDA 优化技巧如共享内存前缀和、专家缓存和向量化优化;建议关注性能测试方法和具体实现细节,以应用于类似 MoE 或量化 kernel 场景。

#7035 [BugFix] Fix clear_parameters in draft cudagraph

作者 Deleter-D · 合并时间 2026-03-27 15:28

缺陷修复 重要性 4.00 洞察度 3.00

修复 clear_parameters 在 draft CUDA Graph 中的 bug,确保 GPU 模型运行器正确清理状态。

建议:此 PR 变更简单,适合快速合并和部署。关注点:检查 `clear_grpah_opt_backend()` 拼写是否正确,并确保端到端测试覆盖相关场景。对于工程师,可快速浏览以了解 GPU 图优化清理机制。

#7045 [Feature] Update error logging

作者 mouxinqq · 合并时间 2026-03-27 15:13

功能 重要性 4.00 洞察度 3.00

更新 Go 路由器错误日志,增强错误信息的可读性和调试能力。

建议快速浏览以了解 Go 路由器错误日志最佳实践,重点关注关键路径(如 completions.go 和 handler.go)的日志添加模式。对于深入理解错误处理设计或日志结构化,此 PR 提供简单示例,但无复杂技术决策。

2026-03-26
性能优化 重要性 5.00 洞察度 4.00

优化 streaming 请求,在 skipped 时仍返回完整 token ids 以支持特殊 tokens。

建议技术管理者关注此 PR,因为它涉及核心 streaming 逻辑的优化,对 token ids 完整性有重要意义。工程师可以精读 serving_chat.py 和 serving_completion.py 的改动,学习如何在 skipped 场景下处理 token ids,并注意测试用例的更新以避免回归。

2026-03-20
测试 重要性 4.00 洞察度 4.00

为load_weight_utils模块添加全面单元测试,覆盖率从45%提升至97%。

对于技术管理者,此PR无需精读,除非关注测试覆盖率提升或Hackathon进展。对于工程师,可以快速浏览测试设计,特别是如何模拟复杂配置和使用Pytest fixture,以学习测试最佳实践。

参与讨论