Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-03-31
测试 重要性 4.00 洞察度 5.00

为 async_expert_loader 模块补充单元测试,覆盖率提升至 100%。

该 PR 主要对测试工程师和模块维护者有参考价值: - 值得阅读以学习如何在 FastDeploy 中编写高质量单元测试,特别是减少 mock、模拟外部依赖的技巧。 - 对于关注 EPLB 或 Loader 模块的开发者,可了解测试覆盖的分支和异常情况。 - 由于不涉及生产代码变更,无需深入分析核心算法。

功能 重要性 4.00 洞察度 2.00

为Qwen3VL模型新增clear_grpah_opt_backend方法,以统一清理CUDA Graph缓存。

该PR变更简单,值得快速合并以完善接口。建议关注方法名的拼写错误,并考虑在后续PR中添加单元测试以确保正确性。对于工程师,可以了解如何通过委托模式保持接口一致性。

#7104 [CI] Remove skip logic for *.txt-only changes

作者 EmmonsCurse · 合并时间 2026-03-31 13:24

基础设施 重要性 5.00 洞察度 3.00

移除 CI 对仅 *.txt 文件更改的跳过逻辑,确保依赖更新触发验证。

此 PR 简单直接,值得快速审阅以确认 CI 逻辑修正。无需深度分析,但建议关注变更是否覆盖所有依赖文件类型,并确保 CI 资源充足以应对可能的运行增加。

#7094 fix cuda graph capture failure in CI test

作者 huicongyao · 合并时间 2026-03-31 11:05

缺陷修复 重要性 4.00 洞察度 3.00

修复CUDA图捕获失败,通过替换虚拟运行时的EOS token。

对于从事GPU优化、speculate decoding或CUDA图捕获的工程师,建议快速浏览此PR以了解虚拟运行中处理EOS token的陷阱。代码简单,但体现了CUDA图捕获的常见问题处理,值得在类似场景中借鉴。

#6992 [Feature] Added the /v1/abort_requests endpoint

作者 qwes5s5 · 合并时间 2026-03-31 11:02

功能 重要性 6.00 洞察度 6.00

新增主动中断推理请求的/v1/abort_requests端点,支持中止特定或全部请求。

建议精读此PR以理解主动控制接口的设计模式,特别关注并发安全和API一致性讨论。对于类似功能开发,可参考其实现,但需注意修复review中提出的风险点,如加锁保护、统一参数名和补充测试。

缺陷修复 重要性 5.00 洞察度 4.00

修复多API服务器中推测性仪表指标的重复导出和目录隔离问题。

此PR值得精读,特别是关注fastdeploy/metrics/metrics.py中的指标管理设计,如re_register_speculative_gauge方法。工程师可学习多进程指标过滤和重新注册的最佳实践,以及环境变量隔离的重要性。建议关注测试覆盖的缺失行,确保长期稳定性。

2026-03-30

#6680 [Optimization] Optimize ttft for prefill pd

作者 rainyfly · 合并时间 2026-03-30 20:36

性能优化 重要性 6.00 洞察度 6.00

优化PD预填充场景下的调度逻辑,减少排队并提升批处理效率。

面向技术管理者和工程师,建议: - **精读重点**:该PR值得精读,特别是engine_forward_signal的设计和调度时机变化,这些是性能优化的关键决策点。 - **关注设计**:留意讨论中的并发优化建议和接口语义问题,可应用于其他调度优化场景。 - **跟进风险**:建议后续补充测试覆盖,并监控生产环境中的性能表现和并发问题。

参与讨论