#7416 [KVCache] Mooncake storage register local buffer by chunk
作者 juncaipeng · 合并时间 2026-04-17 10:39
为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。
该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。
标签列表
聚合结果
作者 juncaipeng · 合并时间 2026-04-17 10:39
为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。
该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。
作者 ShaneGZhu · 合并时间 2026-04-16 19:54
将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。
该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。
作者 ddchenhao66 · 合并时间 2026-04-16 15:45
修复 XPU model runner 在开启 attention store 时重复创建 KV cache 的问题。
该 PR 值得精读,特别是对于关注 XPU 平台优化和 KV cache 管理的工程师。关键设计决策在于将条件逻辑从单一检查扩展为多条件组合,这反映了对 cache 管理策略的细化,值得学习其与 GPU/Metax 实现对齐的思路。
作者 kevincheng2 · 合并时间 2026-04-14 16:15
修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。
该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。
作者 yuanlehome · 合并时间 2026-04-13 22:07
移除KV Cache块数上限限制,提升高显存设备的显存利用率。
建议精读以理解KV Cache分配机制和移除限制的权衡。关注`iluvatar_worker.py`的未同步修改,以及测试baseline的普适性问题,可作为学习风险管理的案例。
作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59
移除CacheManager与WorkerProcess间的IPCLock进程间锁,优化性能并简化IPC组件。
建议精读以理解锁移除的设计决策,关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥,以及是否有隐式测试覆盖。对于风险较高的DP+EP配置,建议团队补充回归测试。
作者 juncaipeng · 合并时间 2026-04-03 10:51
为Mooncake存储设置默认MC_MAX_MR_SIZE环境变量,避免注册时挂起。
该PR值得快速浏览,重点关注:1) 环境变量默认值设置模式(先检查后设置)值得借鉴;2) Copilot关于单位准确性和魔法数字处理的建议对代码质量有参考价值;3) 可作为配置管理最佳实践的简单案例。
作者 liyonghua0910 · 合并时间 2026-04-02 19:58
在模型权重更新后更新缓存 key prefix,并添加单元测试。
建议开发者和架构师精读此 PR,关注请求追踪的改进和缓存同步设计决策,同时注意测试覆盖不足的风险。