Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

prefix-caching 相关 PR

2026-05-15
性能优化 重要性 7.83 洞察度 6.00

跳过无法命中 Prefix Cache 的 SWA 块

值得精读,设计模式(通过 mask 避免无效缓存)可供类似场景借鉴。但需关注 review 中提出的共享物理块断言风险和事件过滤问题,建议在后续 PR 中验证并修复可能的问题。