#7102 [Engine][DataProcessor] fix decode token
作者 zhuangzhuang12 · 合并时间 2026-04-08 15:41
修复流式解码结束时未解码令牌丢失问题,简化逻辑并添加单元测试。
该 PR 值得精读,特别是关注 `_decode_token` 中 force decode 逻辑的简化设计,以及单元测试如何模拟增量解码和边界条件,可作为解码模块改进的参考案例。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 zhuangzhuang12 · 合并时间 2026-04-08 15:41
修复流式解码结束时未解码令牌丢失问题,简化逻辑并添加单元测试。
该 PR 值得精读,特别是关注 `_decode_token` 中 force decode 逻辑的简化设计,以及单元测试如何模拟增量解码和边界条件,可作为解码模块改进的参考案例。
作者 Deleter-D · 合并时间 2026-04-08 15:25
将 arctic_inference 从硬依赖改为可选依赖,仅在 Suffix Decoding 功能使用时按需安装。
该 PR 变更简单,值得快速浏览以了解依赖管理策略。关注点:版本号不一致问题是否需后续修复,以及文档是否需同步更新。
作者 EmmonsCurse · 合并时间 2026-04-08 11:35
将单元测试覆盖率CI的共享内存从64GB增至128GB,并添加ulimit限制以提升并行测试稳定性。
该PR变更简单直接,无需深入精读。对于技术管理者,可关注CI资源调优的趋势;对于工程师,了解共享内存和ulimit在并行测试中的作用即可。建议快速合并,但注意更新PR描述以保持文档完整性。
作者 K11OntheBoat · 合并时间 2026-04-08 11:25
通过引入enable_mm_runtime属性,支持多模态模型以纯文本模式部署,提升QPS。
该PR值得精读,因为它展示了如何通过配置分离模型能力与运行时状态的设计模式,适用于类似优化场景。建议关注FDConfig中计算属性的封装、postprocess中的动态调整逻辑,以及跨模块一致性更改的策略,这些设计决策对系统架构优化有参考价值。
作者 luukunn · 合并时间 2026-04-08 10:16
统一多模态图像处理器目录,新增MultiModalProcessor作为统一入口。
建议精读以了解多模态处理器的统一设计,重点关注MultiModalProcessor的分发逻辑和兼容性处理。注意review中讨论的bug(如多图处理)和类型标注问题,在后续开发中避免类似错误,并考虑补充缺失的测试覆盖。
作者 ChowMingSing · 合并时间 2026-04-07 20:38
将 FastDeploy 的 wheel 包从纯 Python 包改为平台相关包,动态生成标签以准确反映构建环境。
该 PR 值得快速浏览,以了解构建配置的改进方向。关键设计决策是使用标准库 packaging.tags 动态生成标签,替代硬编码值,这提升了跨环境兼容性。建议关注 fastdeploy-bot 提出的依赖声明和异常处理建议,可在后续 PR 中跟进。
作者 Deleter-D · 合并时间 2026-04-07 20:22
为推测解码自动缩放CUDA图捕获尺寸,简化用户配置。
该PR值得精读,特别是config.py中捕获尺寸缩放和映射逻辑的设计,展示了如何将用户配置自动化集成到现有框架中。关注init_with_cudagrpah_size方法的新增参数处理和real_bsz_to_captured_size映射的构建方式。
作者 lizhenyun01 · 合并时间 2026-04-07 19:52
新增Blackwell架构MoE GEMM后端支持,通过环境变量启用以提升高吞吐推理性能。
该PR值得精读,尤其是fused_moe_blackwell_backend.py中的后端实现,可学习高性能MoE计算设计;关注环境变量使用和量化集成方式,以及review中提到的scale处理潜在问题,以便在类似功能开发中规避风险。
参与讨论