← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 19:21 同步状态：空闲下次计划：2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-27

#7049 [XPU] Fix speculate schedule

作者 cmcamdy · 合并时间 2026-03-27 18:28

缺陷修复重要性 5.00 洞察度 5.00

修复XPU推测调度缓存内核bug，优化内存和线程处理。

建议工程师精读内核代码变更，特别是线程分配和内存访问优化部分，这些是低层性能关键点。对于维护XPU相关代码的团队，此PR提供了内存管理和并发处理的参考，值得关注数组大小限制可能带来的约束。

查看完整分析 GitHub 原始 PR bugfixXPUScheduler

#6738 [CI]【Hackathon 10th Spring No.43】ernie4_5_mtp 单测补充

作者 cloudforge1 · 合并时间 2026-03-27 17:15

测试重要性 3.00 洞察度 2.00

添加ernie4_5_mtp模型的单元测试，覆盖率从36%提升至93%。

建议工程师在修改ernie4_5_mtp模型时参考此测试文件，以确保兼容性；对于测试工程师，可学习其使用Stub模拟依赖的测试模式，以提高单元测试编写效率。

查看完整分析 GitHub 原始 PR CIinfraModels

#7007 [Optimization] optimize fused_swiglu_fp8_quant_kernel

作者 fxyfxy777 · 合并时间 2026-03-27 16:10

性能优化重要性 6.00 洞察度 6.00

优化 GPU kernel 以提升 SwiGLU FP8 量化性能，测试提速 20%-30%。

值得精读，特别是 CUDA 优化技巧如共享内存前缀和、专家缓存和向量化优化；建议关注性能测试方法和具体实现细节，以应用于类似 MoE 或量化 kernel 场景。

查看完整分析 GitHub 原始 PR GPUOptimizationQuantization

#7035 [BugFix] Fix clear_parameters in draft cudagraph

作者 Deleter-D · 合并时间 2026-03-27 15:28

缺陷修复重要性 4.00 洞察度 3.00

修复 clear_parameters 在 draft CUDA Graph 中的 bug，确保 GPU 模型运行器正确清理状态。

建议：此 PR 变更简单，适合快速合并和部署。关注点：检查 `clear_grpah_opt_backend()` 拼写是否正确，并确保端到端测试覆盖相关场景。对于工程师，可快速浏览以了解 GPU 图优化清理机制。

查看完整分析 GitHub 原始 PR bugfixGPU

#7045 [Feature] Update error logging

作者 mouxinqq · 合并时间 2026-03-27 15:13

功能重要性 4.00 洞察度 3.00

更新 Go 路由器错误日志，增强错误信息的可读性和调试能力。

建议快速浏览以了解 Go 路由器错误日志最佳实践，重点关注关键路径（如 completions.go 和 handler.go）的日志添加模式。对于深入理解错误处理设计或日志结构化，此 PR 提供简单示例，但无复杂技术决策。

查看完整分析 GitHub 原始 PR LoggingAPIServer

#7044 [CI] disable tests/e2e/test_Qwen3VLMoe_serving.py in unit_test

作者 EmmonsCurse · 合并时间 2026-03-27 14:15

测试重要性 2.00 洞察度 2.00

禁用Qwen3VLMoe端到端测试在单元测试中以确保CI稳定性。

此PR变更简单，工程师无需精读；CI维护者可参考以理解测试配置调整。

查看完整分析 GitHub 原始 PR CItestinfra

2026-03-26

#6998 [Optimization]Streaming requests return complete special tokens.

作者 luukunn · 合并时间 2026-03-26 09:49

性能优化重要性 5.00 洞察度 4.00

优化 streaming 请求，在 skipped 时仍返回完整 token ids 以支持特殊 tokens。

建议技术管理者关注此 PR，因为它涉及核心 streaming 逻辑的优化，对 token ids 完整性有重要意义。工程师可以精读 serving_chat.py 和 serving_completion.py 的改动，学习如何在 skipped 场景下处理 token ids，并注意测试用例的更新以避免回归。

查看完整分析 GitHub 原始 PR OptimizationAPIServertest

2026-03-20

#6740 [CI]【Hackathon 10th Spring No.32】load_weight_utils unit test

作者 cloudforge1 · 合并时间 2026-03-20 13:14

测试重要性 4.00 洞察度 4.00

为load_weight_utils模块添加全面单元测试，覆盖率从45%提升至97%。

对于技术管理者，此PR无需精读，除非关注测试覆盖率提升或Hackathon进展。对于工程师，可以快速浏览测试设计，特别是如何模拟复杂配置和使用Pytest fixture，以学习测试最佳实践。

查看完整分析 GitHub 原始 PR CItestLoader

第 22 / 23 页 · 共 178 条

上一页 1 … 19 20 21 22 23 下一页

支持 Prhub ♥