Prhub

#27364 [perf] reduce radix cache match overhead by changing the match algorithm

原始 PR 作者 Qiaolin-Yu 合并时间 2026-06-07 06:40 文件变更 2 提交数 4 评论 5 代码增减 +79 / -22

执行摘要

指数搜索优化 RadixCache.match 减少逐元素比较

原始实现使用逐元素 zip 循环比较 token_ids,每次迭代都涉及 Python 对象的装箱拆箱开销(见原有 TODO 注释)。随着上下文长度增加(百万 tokens 级别,见 #26943 讨论),这部分开销成为性能瓶颈。PR 通过 slice 级比较将大部分比较下沉到 C 层面。

值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。

讨论亮点
  • gemini-code-assist[bot] 指出:若 t0t1 类型不同(如 list vs array),t0[lo:hi] != t1[lo:hi] 将始终返回 True,完全破坏优化效果。作者在代码中添加了 assert type(t0) is type(t1) 作为防御措施。
  • ispobock 要求添加覆盖边界情况和 page_size>1 的单元测试,作者回应“done”,随后在测试文件中实现了相关用例。
  • hzh0425 批准并建议继续添加更多单元测试。

实现拆解

  1. 修改 RadixKey.match 方法radix_cache.py):在获取两个 token_ids 后增加类型断言 assert type(t0) is type(t1) 确保 slice 比较正确性;随后采用指数搜索(galloping)定位第一个差异的窗口——每次尝试比较跨度翻倍的 slice,若不等则在该窗口内二分查找精确定位第一个差异的 token 位置(matched_tokens)。
  2. 统一返回值计算:根据 is_bigrampage_size 调整返回值。删除原先针对 bigram、page_size=1 及 page_size>1 的三套独立循环,全部基于 matched_tokens 计算。
  3. 补充单元测试test_radix_cache_unit.py):新增 _assert_match 辅助方法,封装 RadixKey 构造与 match 调用;添加 test_match_page_size_1(覆盖全等、部分、无匹配、前缀、空键等边界)、test_match_page_size_gt_1_rounds_down(确认 page_size>1 结果对齐到页边界)、test_match_long_keys_exponential_search(2000 tokens 深度测试 galloping 窗口在不同分歧位置的正确性)、test_match_bigram(验证 bigram 模式下 token 匹配数与 bigram 数的转换)。
文件 模块 状态 重要度
python/sglang/srt/mem_cache/radix_cache.py 缓存层 modified 6.63
test/registered/unit/mem_cache/test_radix_cache_unit.py 测试 modified 7.05

关键符号

RadixKey.match

关键源码片段

python/sglang/srt/mem_cache/radix_cache.py core-logic

核心性能优化:将 match 方法从逐元素循环改为指数搜索 + 二分查找,减少 Python 开销。

# python/sglang/srt/mem_cache/radix_cache.py — RadixKey.match 方法(优化后完整实现)def match(self, other: "RadixKey", page_size: int = 1) -> int:
    """
    计算与 other 共享的逻辑单元前缀长度,结果按 page_size 向下取整。
    使用指数搜索(galloping)快速定位第一个差异 token 的位置。
    """
    self._check_compatible(other)
    t0, t1 = self.token_ids, other.token_ids
    # 类型断言:确保 slice 比较不因类型混用而失效
    assert type(t0) is type(t1), (type(t0), type(t1))
    n = min(len(t0), len(t1))
​
    # 指数搜索:从位置 0 开始,窗口大小倍增,每次用 C 级 slice 比较
    # 找到第一个差异窗口后,在窗口内二分查找精确定位
    matched_tokens = n
    lo = 0
    step = 1
    while lo < n:
        hi = lo + step if lo + step < n else n
        if t0[lo:hi] != t1[lo:hi]:
            # 在 [lo, hi) 区间内二分查找第一个不等元素
            while hi - lo > 1:
                mid = (lo + hi) // 2
                if t0[lo:mid] == t1[lo:mid]:
                    lo = mid
                else:
                    hi = mid
            matched_tokens = lo
            break
        lo = hi
        step *= 2
​
    # 根据 bigram 标记调整返回值
    if self.is_bigram:
        matched = max(0, min(matched_tokens - 1, len(self), len(other)))
        return (matched // page_size) * page_size if page_size > 1 else matched
​
    if page_size == 1:
        return matched_tokens
    return (matched_tokens // page_size) * page_size
test/registered/unit/mem_cache/test_radix_cache_unit.py test-coverage

新增全面单元测试,覆盖各种 page_size、bigram 模式以及长键的指数搜索路径。

# test/registered/unit/mem_cache/test_radix_cache_unit.py — 新增的 match 测试代码def _assert_match(self, a, b, page_size, expected, is_bigram=False):
    key_a = RadixKey(array("q", a), is_bigram=is_bigram)
    key_b = RadixKey(array("q", b), is_bigram=is_bigram)
    self.assertEqual(key_a.match(key_b, page_size=page_size), expected)def test_match_page_size_1(self):
    """match() with page_size=1: full, partial, none, prefix, and empty keys."""
    self._assert_match([1, 2, 3, 4], [1, 2, 3, 4], 1, 4) # identical
    self._assert_match([1, 2, 3, 4], [1, 2, 9, 9], 1, 2) # diverge at index 2
    self._assert_match([9, 2, 3], [1, 2, 3], 1, 0) # diverge at index 0
    self._assert_match([1, 2, 3, 4], [1, 2, 3], 1, 3) # other is a prefix
    self._assert_match([], [1, 2], 1, 0) # empty self
    self._assert_match([1, 2], [], 1, 0) # empty other
    self._assert_match([], [], 1, 0) # both emptydef test_match_page_size_gt_1_rounds_down(self):
    """match() with page_size>1 rounds the shared length down to a page."""
    self._assert_match([1, 2, 3, 4, 5, 6, 7, 8], [1, 2, 3, 4, 5, 6, 9, 8], 4, 4)
    self._assert_match([1, 2, 3, 4], [1, 9, 3, 4], 4, 0) # diverge inside first page
    self._assert_match([1, 2, 3, 4, 5, 6, 7, 8], [1, 2, 3, 4, 9, 6, 7, 8], 4, 4)
    self._assert_match([1, 2, 3, 4, 5, 6, 7, 8], [1, 2, 3, 4, 5, 6, 7, 8], 4, 8)
    self._assert_match([1, 2, 3], [1, 2, 3], 4, 0) # shorter than one pagedef test_match_long_keys_exponential_search(self):
    """Deep divergences exercise the doubling gallop windows + binary search."""
    base = list(range(2000))
    for div in (1, 2, 63, 64, 65, 127, 128, 511, 512, 513, 1234, 1999):
        b = base[:]
        b[div] = -1
        for page_size in (1, 4, 64):
            with self.subTest(div=div, page_size=page_size):
                self._assert_match(base, b, page_size, (div // page_size) * page_size)
    # Full match of a long key: the gallop must reach the end.
    self._assert_match(base, base[:], 64, (2000 // 64) * 64)def test_match_bigram(self):
    """is_bigram: L matching raw tokens imply L-1 matching bigrams."""
    self._assert_match([1, 2, 3, 4, 5], [1, 2, 3, 9, 5], 1, 2, is_bigram=True)
    self._assert_match([1, 2, 3, 4, 5], [1, 2, 3, 4, 5], 1, 4, is_bigram=True)
    self._assert_match([1, 2], [1, 2], 1, 1, is_bigram=True)
    # Raw diverge at token 70 -> 69 matching bigrams -> rounded down to 64.
    long_a = list(range(130))
    long_b = list(range(130))
    long_b[70] = -1
    self._assert_match(long_a, long_b, 64, 64, is_bigram=True)

评论区精华

类型兼容性导致 slice 比较失效 正确性

gemini-code-assist[bot] 指出如果 t0 和 t1 类型不同,slice 比较会始终返回 False,完全破坏优化效果,属于高优先级问题。

结论:作者增加 `assert type(t0) is type(t1)` 确保类型一致,若断言失败则抛出异常,避免静默错误。 · 已解决

需要增加单元测试覆盖边界和 page_size>1 测试

ispobock 要求添加单元测试覆盖边缘情况和 page_size>1 的场景。

结论:作者在测试文件中实现了 `test_match_page_size_gt_1_rounds_down` 等用例,并回复“done”。 · 已解决

风险与影响

类型断言 assert type(t0) is type(t1) 会在类型不匹配时抛出 AssertionError,而原实现可以正常运行(尽管性能较差)。如果某个调用方偶然混用了不同容器类型,将出现新错误。不过生产环境中 token_ids 类型通常一致,风险较低。指数搜索在完全匹配时会遍历到末尾(gallop 到 n 并退出),额外开销约为 2*log2(n) 次 slice 比较,对于长键可忽略,但对于极短键(<4 tokens)可能略慢于原逐元素循环。测试覆盖了短键和边界情况,但未覆盖百万 tokens 量级,超大前缀下的实际性能表现需实测验证。无安全与兼容性风险。

影响范围:所有使用 RadixCache 的前缀匹配路径(如 KV cache 重用、前缀命中检测),属于核心调度路径。优化效果在长公共前缀场景下显著,短前缀场景下几乎无退化。配套测试较完善,降低了回归风险。对用户透明,无需任何配置变更。团队应关注后续可能的类型不一致问题,并考虑在调试模式外移除 assert 或降级为 warning。

类型断言可能引发新错误 核心路径变更 短键场景轻微退化

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论