#7438 [BugFix] Fix real token exceeding max_batched_tokens limit
作者 freeliuzc · 合并时间 2026-04-17 16:18
修复投机解码场景下调度器token预算计算错误,避免显存OOM。
该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。
标签列表
聚合结果
作者 freeliuzc · 合并时间 2026-04-17 16:18
修复投机解码场景下调度器token预算计算错误,避免显存OOM。
该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。
作者 juncaipeng · 合并时间 2026-04-15 20:13
支持PD分离部署无需路由器,放宽配置限制并新增测试验证。
该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。
作者 chang-wenbin · 合并时间 2026-04-15 15:55
修复禁用分块预填充时批处理令牌数限制,允许使用最大模型长度。
该PR是调度器配置的关键修复,值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑,以及EngineArgs和FDConfig的同步修改设计。
作者 kevincheng2 · 合并时间 2026-04-14 16:15
修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。
该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。
作者 freeliuzc · 合并时间 2026-04-13 19:41
支持PD分离模式下MTP超重叠优化,通过异步写入减少GPU同步,提升解码性能10%~15%。
建议精读以了解异步优化在高速推理系统中的实现细节,重点关注async_set_value函数的设计、平台适配策略以及review中讨论的技术权衡。同时,注意未完全解决的兼容性风险和测试覆盖缺口。
作者 Sunny-bot1 · 合并时间 2026-04-10 18:29
修复overlap调度模式下MTP空输入未执行问题,确保EP模型行为一致。
该PR值得快速浏览,以了解overlap schedule模式下MTP空输入处理的修复逻辑。重点关注条件判断的完整性和与execute_model_normal的一致性。由于缺少测试覆盖,建议后续补充相关单元测试。
作者 liyonghua0910 · 合并时间 2026-04-03 14:07
修复调度器在请求状态转换时槽位计数不一致的bug,防止请求无槽位进入运行状态。
该PR值得精读,特别是对于负责调度器模块的工程师。重点关注resource_manager_v1.py中新的槽位计数逻辑设计,这是调度器正确性的关键保障。建议结合近期调度器相关的PR(如#7152、#7129)一起阅读,理解调度器状态的完整演进。
作者 rainyfly · 合并时间 2026-04-03 10:18
在调度器V1中支持通过环境变量禁用分块预填充功能。
该PR值得关注,因为它触及了调度器资源分配的核心逻辑。建议精读以理解分块预填充的禁用机制如何集成到现有流程中,并思考其设计意图。重点关注:1. 环境变量驱动的特性开关设计模式;2. 条件检查在分配循环中的位置及其对控制流的影响;3. 与现有分块逻辑的交互。同时,建议补充测试以确保新分支的健壮性。