#7127 [Others]add unit test
作者 luukunn · 合并时间 2026-04-01 18:36
恢复并新增V1版本缓存管理和资源调度的单元测试文件。
建议工程师精读这些测试以理解V1调度和缓存机制,同时注意review中指出的配置不完整和资源清理问题,避免在类似测试中重复错误,并考虑删除伪造覆盖率的函数。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 luukunn · 合并时间 2026-04-01 18:36
恢复并新增V1版本缓存管理和资源调度的单元测试文件。
建议工程师精读这些测试以理解V1调度和缓存机制,同时注意review中指出的配置不完整和资源清理问题,避免在类似测试中重复错误,并考虑删除伪造覆盖率的函数。
作者 mouxinqq · 合并时间 2026-04-01 16:46
新增radix tree缓存驱逐时间可配置性,默认值改为30分钟并扩展token counter到mixed worker。
建议技术管理者和工程师精读此PR,重点关注缓存策略的设计决策(如默认值选择)、配置传递机制以及token counter扩展的实现,这些对理解调度优化和系统可配置性有参考价值。
作者 Sunny-bot1 · 合并时间 2026-04-01 14:24
支持MTP场景开启overlap schedule优化,提升解码性能。
建议技术管理者和工程师精读此PR,重点关注: - 内核修改中的无效槽位处理逻辑(如if (bs_idx < 0) return;),以理解overlap schedule下的防御性编程。 - gpu_model_runner.py中的overlap schedule实现,特别是_resolve_current_launch_token_num方法的变更,体现了性能优化设计。 - 注意fastdeploy-bot指出的API不匹配bug的修复情况,确保跨平台兼容性。
作者 EmmonsCurse · 合并时间 2026-04-01 14:18
引入单GPU并行测试和日志收集,优化CI效率。
建议关注CI优化和测试基础设施的工程师精读此PR,特别是`scripts/coverage_run.sh`中的`classify_tests`和`run_test_with_logging`函数,学习如何设计并行测试执行和日志隔离方案,同时注意分类逻辑的潜在风险。
作者 xyxinyang · 合并时间 2026-04-01 13:18
新增日志参数和错误输出优化,提升调试效率。
建议技术管理者和工程师关注此 PR 的日志系统优化方向,特别是 MaxLevelFilter 的设计和错误处理逻辑的改进。对于调试相关问题,值得精读 _read_latest_worker_traceback 函数的实现。
作者 juncaipeng · 合并时间 2026-04-01 13:15
优化抢占请求处理,将KV cache写入storage并调整调度逻辑以避免死锁。
该PR值得精读,尤其对于从事调度和缓存优化的工程师。重点关注: - 调度锁内同步I/O操作的设计权衡,可借鉴以避免类似性能瓶颈。 - 类型处理的一致性问题,提醒在跨模块开发时需严格遵循类型约定。 - 环境变量默认值设置对系统行为的影响,建议在实际部署中评估I/O开销。
作者 luukunn · 合并时间 2026-04-01 09:53
删除ENABLE_V1_DATA_PROCESSOR环境变量及相关代码,统一数据处理路径。
该PR值得精读,特别是对于涉及数据处理、引擎通信和测试维护的工程师。关注点包括:`fastdeploy/input/preprocess.py`中处理器选择逻辑的变化、`fastdeploy/inter_communicator/zmq_server.py`中序列化路径的统一方式,以及测试文件如何适配移除v1代码的策略。这些设计决策展示了如何安全地淘汰旧子系统并保持系统一致性。
作者 qwes5s5 · 合并时间 2026-03-31 21:26
扩展APIServer的/config-info端点,新增版本、聊天模板、启动参数和设备信息字段。
建议阅读此PR以了解APIServer端点扩展的实现方式;重点关注device_info的异常处理和测试覆盖;对于类似功能开发,可参考此代码结构。
参与讨论