Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Engine 相关 PR

2026-04-17

#7438 [BugFix] Fix real token exceeding max_batched_tokens limit

作者 freeliuzc · 合并时间 2026-04-17 16:18

缺陷修复 重要性 4.96 洞察度 7.00

修复投机解码场景下调度器token预算计算错误,避免显存OOM。

bugfix Scheduler Speculative Decoding Engine

该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。

2026-04-16

#7426 [Engine] Allow parallel dp starting

作者 RichardWooSJTU · 合并时间 2026-04-16 18:43

optimization 重要性 4.10 洞察度 4.00

将数据并行进程启动从串行改为并行,优化启动性能。

Engine Optimization infra

此PR值得快速浏览,了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改,并思考是否需要在团队代码规范中补充超时机制。

2026-04-15

#7412 [PD Disaggregation] Enable PD deployment without Router

作者 juncaipeng · 合并时间 2026-04-15 20:13

功能 重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器,放宽配置限制并新增测试验证。

Feature Scheduler Engine test

该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。

缺陷修复 重要性 4.16 洞察度 4.00

修复禁用分块预填充时批处理令牌数限制,允许使用最大模型长度。

bugfix Scheduler Engine

该PR是调度器配置的关键修复,值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑,以及EngineArgs和FDConfig的同步修改设计。

2026-04-14
缺陷修复 重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

bugfix KVCache Scheduler Engine

该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。

#7274 [BugFix] Fix multimodal 3D RoPE dtype and position_ids indexing error

作者 xiaoxiaohehe001 · 合并时间 2026-04-14 11:36

缺陷修复 重要性 5.00 洞察度 4.00

修复多模态3D RoPE的dtype不一致和position_ids索引错误,确保推理正确性。

bugfix Models OP Engine

该PR值得精读,特别是对于从事多模态模型开发的工程师。关注点包括:1) 3D position_ids的构造和索引逻辑;2) dtype一致性的设计考量;3) 虽然review建议未被采纳,但dec_pos_ids保持int64的决策值得思考。

2026-04-13

#7241 [Optimization] 移除 num_blocks 上限限制

作者 yuanlehome · 合并时间 2026-04-13 22:07

性能优化 重要性 6.00 洞察度 5.00

移除KV Cache块数上限限制,提升高显存设备的显存利用率。

Optimization KVCache Engine

建议精读以理解KV Cache分配机制和移除限制的权衡。关注`iluvatar_worker.py`的未同步修改,以及测试baseline的普适性问题,可作为学习风险管理的案例。

2026-04-12

#7299 [Optim] Remove IPCLock between CacheManager and WorkerProcess

作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59

性能优化 重要性 6.00 洞察度 5.00

移除CacheManager与WorkerProcess间的IPCLock进程间锁,优化性能并简化IPC组件。

Optimization KVCache Engine Refactor

建议精读以理解锁移除的设计决策,关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥,以及是否有隐式测试覆盖。对于风险较高的DP+EP配置,建议团队补充回归测试。