#22471 [Spec][Ngram] Return token counts in list_external_corpora API

sgl-project/sglang · 作者 kpham-sgl · 合并时间 2026-04-11 12:50

分析状态已生成

文件变更 12提交数 3 · 评论 11

代码增减 +49 / -34

feature jit-kernel run-ci speculative-decoding

执行摘要

将 list_external_corpora API 返回值扩展为包含语料库 token 计数的字典。

根据PR body，动机是'Admin will manage the external corpora themselves, we need to give them more insights into their corpora (token counts of each corpus)'。关联Issue #21052 '[Roadmap] Further Ngram Speculative Decoding Support'，该PR是系列工作项的一部分。

建议关注此PR的设计决策，如使用制表符分隔符避免corpus ID中的逗号问题，以及从C++到HTTP的全栈一致性更新。对于从事Ngram模块或API开发的工程师值得精读，以理解外部语料库管理的演进方向。

讨论亮点

Review评论列表为空，未提供具体讨论内容，因此无法提取讨论要点。

实现拆解

实现拆解为以下层次：

C++层：在SuffixAutomaton类中新增tokenCount()方法返回pos_计数器；修改Ngram::listExternalCorpora()返回std::pair向量。
FFI层：ngram_corpus_ffi.cpp中更新字符串编码，使用制表符分隔corpus ID和token计数。
Python层：从jit_kernel/ngram_corpus.py到srt/speculative/的多个文件，将返回值从列表改为字典。
HTTP层：http_server.py中响应字段从corpus_ids重命名为corpus_token_counts。
测试层：更新单元测试以验证字典返回和计数正确性。

文件	模块	状态	重要度
`python/sglang/jit_kernel/csrc/ngram_corpus/ngram.cpp`	ngram_corpus	modified	7.0
`python/sglang/jit_kernel/csrc/ngram_corpus/suffix_automaton.h`	ngram_corpus	modified	6.0
`python/sglang/jit_kernel/csrc/ngram_corpus/ngram_corpus_ffi.cpp`	ngram_corpus	modified	5.0
`python/sglang/jit_kernel/ngram_corpus.py`	ngram_corpus	modified	5.0
`python/sglang/srt/entrypoints/http_server.py`	http_server	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

Ngram::listExternalCorpora() SuffixAutomaton::tokenCount() NgramCorpusFFI.list_corpora() list_external_corpora()

评论区精华

无 review 讨论 other

未提供 review 评论，因此没有具体讨论内容。

结论：无 · 已解决

风险与影响

技术风险包括：

API breaking change：响应结构从列表改为字典，可能影响现有客户端代码，但PR更新了所有相关层，降低了风险。
分隔符解析：FFI层使用制表符分隔，但若corpus ID包含制表符可能导致解析错误，提交历史显示从逗号改为制表符以规避此问题。
测试覆盖：修改了测试文件，确保基本功能，但需确认所有边缘案例（如corpus ID包含特殊字符）已覆盖。

影响分析：

用户：管理员现在可以获取每个外部语料库的token计数，便于资源管理和监控。
系统：API响应格式变更，可能需更新客户端代码；对内部模块无性能或安全显著影响。
团队：工程师需要了解新的API结构，并可能更新依赖此API的代码，但变更范围有限且已同步全栈。

API breaking change 分隔符解析风险测试覆盖需验证

关联 Issue

#21052 [Roadmap] Further Ngram Speculative Decoding Support

完整报告

执行摘要

本PR将list_external_corpora API的返回值从语料库ID列表扩展为包含token计数的字典，为管理员提供更详细的语料库洞察，是Ngram推测解码系列的一部分，影响范围从C++内核到HTTP接口。

功能与动机

动机源于Issue #21052的Ngram推测解码路线图，管理员需要监控外部语料库的token使用情况。PR body明确指出："Admin will manage the external corpora themselves, we need to give them more insights into their corpora (token counts of each corpus)"，这直接驱动了API的增强需求。

实现拆解

变更涉及全栈更新：

C++层：在SuffixAutomaton类新增tokenCount()方法返回pos_计数器；Ngram::listExternalCorpora()改为返回std::pair<std::string, int64_t>向量。
cpp // 示例代码：suffix_automaton.h int64_t tokenCount() const { return pos_; }
FFI层：ngram_corpus_ffi.cpp中更新字符串编码，使用制表符分隔ID和计数（例如"id\t123"）。
Python层：从jit_kernel/ngram_corpus.py到srt/speculative/的多个模块，将返回值类型从List[str]更新为Dict[str, int]。
HTTP层：http_server.py中响应字段从corpus_ids重命名为corpus_token_counts。
测试层：test/registered/unit/spec/test_ngram_corpus.py更新验证字典返回和计数正确性。

评论区精华

由于review评论为空，未发生具体技术讨论，PR的迭代主要通过提交历史体现，如分隔符从逗号改为制表符以规避corpus ID包含逗号的风险。

风险与影响

风险：

API变更可能破坏现有客户端代码，但通过全栈同步更新缓解。
分隔符选择（制表符）避免了corpus ID包含逗号的问题，但若ID包含制表符仍可能解析错误（概率较低）。
测试覆盖了基本功能，但边缘案例（如特殊字符ID）需进一步确认。

影响：

用户：管理员获得token计数数据，便于资源优化。
系统：API响应格式变更，需客户端适配；对内部性能无显著影响。
团队：工程师需关注新API结构，但变更范围有限且已全栈同步。

关联脉络

此PR是Issue #21052系列工作的一部分，近期PR如#22487同样涉及Ngram模块清理，显示了团队在增强推测解码功能（尤其是外部语料库支持）上的持续投入，预计未来将有更多相关PR跟进。

支持 Prhub ♥

#22471 [Spec][Ngram] Return token counts in list_external_corpora API

执行摘要

将 list_external_corpora API 返回值扩展为包含语料库 token 计数的字典。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论