Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

streaming 相关 PR

2026-06-03

#24659 Optimize streaming detokenizer updates

原始 PR · 作者 inkcherry · 合并时间 2026-06-03 14:44

性能优化 重要性 8.03 洞察度 6.00

优化流式 detokenizer 更新延迟合并并跳过空解码

值得精读,尤其关注 `DecodeStatus` 的延迟块累积设计——它用极小的内存代价消除了流式场景下常见的 O(N²) 瓶颈,是轻量性能优化的范例。