Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

mlx 相关 PR

2026-06-04
缺陷修复 重要性 7.20 洞察度 5.00

修复 MLX 后端 canary_manager 缺失与 overlap 循环输入缺失

建议精读以理解 MLX 后端与主调度器的交互细节。重点关注 scheduler.py 中 FutureMap 初始化顺序的调整,以及 resolve_forward_inputs 在 overlap 循环中的正确插入点。测试代码展示了如何为硬件后端驱动调度循环的单元测试模式。

2026-04-18

#21509 [MLX] Support radix cache

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能 重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。

该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。