← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 19:21 同步状态：空闲下次计划：2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#7105 [append attention] remove useless code

作者 zhoutianzi666 · 合并时间 2026-03-31 16:13

重构重要性 4.00 洞察度 2.00

移除GPU append attention内核中的冗余条件检查代码。

该PR变更简单，不值得深入精读，但可作为代码清理的参考。关注点：确保删除的代码确实冗余，不会影响正确性。

查看完整分析 GitHub 原始 PR GPUAttentionRefactor

#6731 [CI]【Hackathon 10th Spring No.34】async_expert_loader 单测补充

作者 cloudforge1 · 合并时间 2026-03-31 15:29

测试重要性 4.00 洞察度 5.00

为 async_expert_loader 模块补充单元测试，覆盖率提升至 100%。

该 PR 主要对测试工程师和模块维护者有参考价值： - 值得阅读以学习如何在 FastDeploy 中编写高质量单元测试，特别是减少 mock、模拟外部依赖的技巧。 - 对于关注 EPLB 或 Loader 模块的开发者，可了解测试覆盖的分支和异常情况。 - 由于不涉及生产代码变更，无需深入分析核心算法。

查看完整分析 GitHub 原始 PR CItestLoader

#7086 [RL][Qwen3VL] Add clear_grpah_opt_backend method to Qwen3VLForConditional…

作者 Guo-Yilong · 合并时间 2026-03-31 13:48

功能重要性 4.00 洞察度 2.00

为Qwen3VL模型新增clear_grpah_opt_backend方法，以统一清理CUDA Graph缓存。

该PR变更简单，值得快速合并以完善接口。建议关注方法名的拼写错误，并考虑在后续PR中添加单元测试以确保正确性。对于工程师，可以了解如何通过委托模式保持接口一致性。

查看完整分析 GitHub 原始 PR RLModelsGPU

#7104 [CI] Remove skip logic for *.txt-only changes

作者 EmmonsCurse · 合并时间 2026-03-31 13:24

基础设施重要性 5.00 洞察度 3.00

移除 CI 对仅 *.txt 文件更改的跳过逻辑，确保依赖更新触发验证。

此 PR 简单直接，值得快速审阅以确认 CI 逻辑修正。无需深度分析，但建议关注变更是否覆盖所有依赖文件类型，并确保 CI 资源充足以应对可能的运行增加。

查看完整分析 GitHub 原始 PR CIbugfixinfra

#7094 fix cuda graph capture failure in CI test

作者 huicongyao · 合并时间 2026-03-31 11:05

缺陷修复重要性 4.00 洞察度 3.00

修复CUDA图捕获失败，通过替换虚拟运行时的EOS token。

对于从事GPU优化、speculate decoding或CUDA图捕获的工程师，建议快速浏览此PR以了解虚拟运行中处理EOS token的陷阱。代码简单，但体现了CUDA图捕获的常见问题处理，值得在类似场景中借鉴。

查看完整分析 GitHub 原始 PR bugfixGPUCI

#6992 [Feature] Added the /v1/abort_requests endpoint

作者 qwes5s5 · 合并时间 2026-03-31 11:02

功能重要性 6.00 洞察度 6.00

新增主动中断推理请求的/v1/abort_requests端点，支持中止特定或全部请求。

建议精读此PR以理解主动控制接口的设计模式，特别关注并发安全和API一致性讨论。对于类似功能开发，可参考其实现，但需注意修复review中提出的风险点，如加锁保护、统一参数名和补充测试。

查看完整分析 GitHub 原始 PR FeatureAPIServerScheduler

#7082 [BugFix] fix speculative gauge metrics in multi api server

作者 liyonghua0910 · 合并时间 2026-03-31 10:52

缺陷修复重要性 5.00 洞察度 4.00

修复多API服务器中推测性仪表指标的重复导出和目录隔离问题。

此PR值得精读，特别是关注fastdeploy/metrics/metrics.py中的指标管理设计，如re_register_speculative_gauge方法。工程师可学习多进程指标过滤和重新注册的最佳实践，以及环境变量隔离的重要性。建议关注测试覆盖的缺失行，确保长期稳定性。

查看完整分析 GitHub 原始 PR bugfixAPIServertest

2026-03-30

#6680 [Optimization] Optimize ttft for prefill pd

作者 rainyfly · 合并时间 2026-03-30 20:36

性能优化重要性 6.00 洞察度 6.00

优化PD预填充场景下的调度逻辑，减少排队并提升批处理效率。

面向技术管理者和工程师，建议： - **精读重点**：该PR值得精读，特别是engine_forward_signal的设计和调度时机变化，这些是性能优化的关键决策点。 - **关注设计**：留意讨论中的并发优化建议和接口语义问题，可应用于其他调度优化场景。 - **跟进风险**：建议后续补充测试覆盖，并监控生产环境中的性能表现和并发问题。

查看完整分析 GitHub 原始 PR OptimizationScheduler

第 19 / 23 页 · 共 178 条

上一页 1 … 17 18 19 20 21 … 23 下一页

支持 Prhub ♥