Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Scheduler 相关 PR

2026-04-17

#7438 [BugFix] Fix real token exceeding max_batched_tokens limit

作者 freeliuzc · 合并时间 2026-04-17 16:18

缺陷修复 重要性 4.96 洞察度 7.00

修复投机解码场景下调度器token预算计算错误,避免显存OOM。

bugfix Scheduler Speculative Decoding Engine

该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。

2026-04-15

#7412 [PD Disaggregation] Enable PD deployment without Router

作者 juncaipeng · 合并时间 2026-04-15 20:13

功能 重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器,放宽配置限制并新增测试验证。

Feature Scheduler Engine test

该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。

缺陷修复 重要性 4.16 洞察度 4.00

修复禁用分块预填充时批处理令牌数限制,允许使用最大模型长度。

bugfix Scheduler Engine

该PR是调度器配置的关键修复,值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑,以及EngineArgs和FDConfig的同步修改设计。

2026-04-14
缺陷修复 重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

bugfix KVCache Scheduler Engine

该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。

2026-04-13
性能优化 重要性 7.00 洞察度 7.00

支持PD分离模式下MTP超重叠优化,通过异步写入减少GPU同步,提升解码性能10%~15%。

Speculative Decoding Optimization Scheduler

建议精读以了解异步优化在高速推理系统中的实现细节,重点关注async_set_value函数的设计、平台适配策略以及review中讨论的技术权衡。同时,注意未完全解决的兼容性风险和测试覆盖缺口。

2026-04-10

#7300 [BugFix] Fix mtp empty run issue in overlap schedule and EP model

作者 Sunny-bot1 · 合并时间 2026-04-10 18:29

缺陷修复 重要性 4.00 洞察度 3.00

修复overlap调度模式下MTP空输入未执行问题,确保EP模型行为一致。

bugfix Scheduler Engine

该PR值得快速浏览,以了解overlap schedule模式下MTP空输入处理的修复逻辑。重点关注条件判断的完整性和与execute_model_normal的一致性。由于缺少测试覆盖,建议后续补充相关单元测试。

2026-04-03

#7141 [BugFix] prevent requests from entering running state without a slot

作者 liyonghua0910 · 合并时间 2026-04-03 14:07

缺陷修复 重要性 6.00 洞察度 5.00

修复调度器在请求状态转换时槽位计数不一致的bug,防止请求无槽位进入运行状态。

bugfix Scheduler Optimization

该PR值得精读,特别是对于负责调度器模块的工程师。重点关注resource_manager_v1.py中新的槽位计数逻辑设计,这是调度器正确性的关键保障。建议结合近期调度器相关的PR(如#7152、#7129)一起阅读,理解调度器状态的完整演进。

#7152 [Feature] Support chunk prefill disabled in scheduler v1

作者 rainyfly · 合并时间 2026-04-03 10:18

功能 重要性 5.00 洞察度 4.00

在调度器V1中支持通过环境变量禁用分块预填充功能。

Feature Scheduler Optimization

该PR值得关注,因为它触及了调度器资源分配的核心逻辑。建议精读以理解分块预填充的禁用机制如何集成到现有流程中,并思考其设计意图。重点关注:1. 环境变量驱动的特性开关设计模式;2. 条件检查在分配循环中的位置及其对控制流的影响;3. 与现有分块逻辑的交互。同时,建议补充测试以确保新分支的健壮性。