#7438 [BugFix] Fix real token exceeding max_batched_tokens limit
作者 freeliuzc · 合并时间 2026-04-17 16:18
修复投机解码场景下调度器token预算计算错误,避免显存OOM。
该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。
标签列表
聚合结果
作者 freeliuzc · 合并时间 2026-04-17 16:18
修复投机解码场景下调度器token预算计算错误,避免显存OOM。
该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。
作者 RichardWooSJTU · 合并时间 2026-04-16 18:43
将数据并行进程启动从串行改为并行,优化启动性能。
此PR值得快速浏览,了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改,并思考是否需要在团队代码规范中补充超时机制。
作者 juncaipeng · 合并时间 2026-04-15 20:13
支持PD分离部署无需路由器,放宽配置限制并新增测试验证。
该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。
作者 chang-wenbin · 合并时间 2026-04-15 15:55
修复禁用分块预填充时批处理令牌数限制,允许使用最大模型长度。
该PR是调度器配置的关键修复,值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑,以及EngineArgs和FDConfig的同步修改设计。
作者 kevincheng2 · 合并时间 2026-04-14 16:15
修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。
该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。
作者 xiaoxiaohehe001 · 合并时间 2026-04-14 11:36
修复多模态3D RoPE的dtype不一致和position_ids索引错误,确保推理正确性。
该PR值得精读,特别是对于从事多模态模型开发的工程师。关注点包括:1) 3D position_ids的构造和索引逻辑;2) dtype一致性的设计考量;3) 虽然review建议未被采纳,但dec_pos_ids保持int64的决策值得思考。
作者 yuanlehome · 合并时间 2026-04-13 22:07
移除KV Cache块数上限限制,提升高显存设备的显存利用率。
建议精读以理解KV Cache分配机制和移除限制的权衡。关注`iluvatar_worker.py`的未同步修改,以及测试baseline的普适性问题,可作为学习风险管理的案例。
作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59
移除CacheManager与WorkerProcess间的IPCLock进程间锁,优化性能并简化IPC组件。
建议精读以理解锁移除的设计决策,关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥,以及是否有隐式测试覆盖。对于风险较高的DP+EP配置,建议团队补充回归测试。