#21509 [MLX] Support radix cache
作者 yeahdongcn · 合并时间 2026-04-18 07:00
功能
重要性 9.18
洞察度 6.00
为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。
feature
mlx
performance
kv-cache
run-ci
该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。