Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 21:29 同步状态:空闲 下次计划:2026-04-18 22:29

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-01

#7127 [Others]add unit test

作者 luukunn · 合并时间 2026-04-01 18:36

测试 重要性 5.00 洞察度 5.00

恢复并新增V1版本缓存管理和资源调度的单元测试文件。

建议工程师精读这些测试以理解V1调度和缓存机制,同时注意review中指出的配置不完整和资源清理问题,避免在类似测试中重复错误,并考虑删除伪造覆盖率的函数。

#7125 [Feature] Config eviction_duration

作者 mouxinqq · 合并时间 2026-04-01 16:46

功能 重要性 6.00 洞察度 5.00

新增radix tree缓存驱逐时间可配置性,默认值改为30分钟并扩展token counter到mixed worker。

建议技术管理者和工程师精读此PR,重点关注缓存策略的设计决策(如默认值选择)、配置传递机制以及token counter扩展的实现,这些对理解调度优化和系统可配置性有参考价值。

#7001 [Feature] Support mtp overlap schedule

作者 Sunny-bot1 · 合并时间 2026-04-01 14:24

功能 重要性 6.00 洞察度 6.00

支持MTP场景开启overlap schedule优化,提升解码性能。

建议技术管理者和工程师精读此PR,重点关注: - 内核修改中的无效槽位处理逻辑(如if (bs_idx < 0) return;),以理解overlap schedule下的防御性编程。 - gpu_model_runner.py中的overlap schedule实现,特别是_resolve_current_launch_token_num方法的变更,体现了性能优化设计。 - 注意fastdeploy-bot指出的API不匹配bug的修复情况,确保跨平台兼容性。

基础设施 重要性 6.00 洞察度 5.00

引入单GPU并行测试和日志收集,优化CI效率。

建议关注CI优化和测试基础设施的工程师精读此PR,特别是`scripts/coverage_run.sh`中的`classify_tests`和`run_test_with_logging`函数,学习如何设计并行测试执行和日志隔离方案,同时注意分类逻辑的潜在风险。

功能 重要性 5.00 洞察度 5.00

新增日志参数和错误输出优化,提升调试效率。

建议技术管理者和工程师关注此 PR 的日志系统优化方向,特别是 MaxLevelFilter 的设计和错误处理逻辑的改进。对于调试相关问题,值得精读 _read_latest_worker_traceback 函数的实现。

功能 重要性 6.00 洞察度 6.00

优化抢占请求处理,将KV cache写入storage并调整调度逻辑以避免死锁。

该PR值得精读,尤其对于从事调度和缓存优化的工程师。重点关注: - 调度锁内同步I/O操作的设计权衡,可借鉴以避免类似性能瓶颈。 - 类型处理的一致性问题,提醒在跨模块开发时需严格遵循类型约定。 - 环境变量默认值设置对系统行为的影响,建议在实际部署中评估I/O开销。

#7052 [DataProcessor]Remove ENABLE_V1_DATA_PROCESSOR

作者 luukunn · 合并时间 2026-04-01 09:53

重构 重要性 7.00 洞察度 5.00

删除ENABLE_V1_DATA_PROCESSOR环境变量及相关代码,统一数据处理路径。

该PR值得精读,特别是对于涉及数据处理、引擎通信和测试维护的工程师。关注点包括:`fastdeploy/input/preprocess.py`中处理器选择逻辑的变化、`fastdeploy/inter_communicator/zmq_server.py`中序列化路径的统一方式,以及测试文件如何适配移除v1代码的策略。这些设计决策展示了如何安全地淘汰旧子系统并保持系统一致性。

2026-03-31
功能 重要性 6.00 洞察度 4.00

扩展APIServer的/config-info端点,新增版本、聊天模板、启动参数和设备信息字段。

建议阅读此PR以了解APIServer端点扩展的实现方式;重点关注device_info的异常处理和测试覆盖;对于类似功能开发,可参考此代码结构。

参与讨论