#21399 [CI] Add unit tests for function_call detectors (hermes, llama32, mistral)

原始 PR 作者 Lidang-Jiang 合并时间 2026-04-06 10:29 文件变更 3 提交数 4 评论 22 代码增减 +595 / -0

执行摘要

添加 Hermes、Llama32、Mistral 功能调用检测器的 39 个 CPU-only 单元测试。

根据PR body，此变更贡献于Issue #20865（Improve Unit Test Coverage），目标是增强功能调用检测和解析逻辑的可靠性。作者指出这些检测器之前未经测试，新增测试可以验证has_tool_call、detect_and_parse等方法在各种情况下的行为。

建议工程师精读此PR，学习如何为不同格式的检测器设计全面测试用例，特别是流式增量解析的测试方法。关注review讨论中的改进点，如使用CustomTestCase和加强断言，这些是提升测试质量的关键决策。

讨论亮点

Review中主要讨论点：

基类使用：reviewer ispobock建议使用CustomTestCase而非unittest.TestCase，作者在提交b08821eb8中修正。
CI套件名称：reviewer指出套件名称应为stage-a-cpu-only，但作者引用现有约定和CI配置，坚持使用stage-a-test-cpu。
测试重复性：发现test_mistral_detector.py中test_compact_format_with_closing_bracket是重复测试，作者移除。
流式测试加强：reviewer和gemini-code-assist[bot]建议加强流式测试断言（如使用assertEqual验证具体数量而非len(all_calls) > 0），并添加Llama32和Mistral的缺失流式测试，作者在后续提交中逐一解决。讨论结论是测试质量得到提升，无未解决疑虑。

实现拆解

实现涉及三个新测试文件：test_hermes_detector.py（11个测试）、test_llama32_detector.py（12个测试）、test_mistral_detector.py（16个测试）。每个文件定义一个继承自CustomTestCase的测试类，在setUp中初始化工具列表和检测器实例。测试方法分为has_tool_call测试、detect_and_parse测试（包括单/多工具调用、前导文本处理等）、流式增量解析测试（模拟分块输入）以及边界情况测试（如畸形JSON）。所有测试通过register_cpu_ci注册到CI的stage-a-test-cpu套件。

文件	模块	状态	重要度
`test/registered/unit/function_call/test_hermes_detector.py`	function_call	added	4.0
`test/registered/unit/function_call/test_llama32_detector.py`	function_call	added	4.0
`test/registered/unit/function_call/test_mistral_detector.py`	function_call	added	4.0

关键符号

TestHermesDetector.test_streaming_incremental_parsing TestLlama32Detector.test_has_tool_call_with_python_tag TestMistralDetector.test_json_array_multiple_tool_calls

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

使用 CustomTestCase 基类 测试

reviewer ispobock 建议使用 CustomTestCase 而非 unittest.TestCase 以保持一致，作者在提交 b08821eb8 中修正所有三个文件。

结论：已修正，测试现在使用 CustomTestCase。 · 已解决

CI 测试套件名称争议 infra

reviewer 认为套件名称应为 stage-a-cpu-only，但作者引用现有约定和 CI 配置，坚持使用 stage-a-test-cpu，并指出其他测试文件均使用此名称。

结论：作者保留原名称，无进一步变更，测试已注册到正确 CI 套件。 · 已解决

流式测试断言加强和补充 测试

gemini-code-assist[bot] 指出流式测试断言过弱（如 len(all_calls) > 0），应使用 assertEqual 验证具体数量和内容，并建议添加 Llama32 和 Mistral 的缺失流式测试。

结论：作者在 b08821eb8 提交中加强断言、添加缺失测试，并在 354a73f 提交中完善 normal_text 断言。 · 已解决

风险与影响

技术风险较低，主要风险包括：

测试覆盖不全面：尽管覆盖了多种场景，但可能遗漏某些边界条件，如极端嵌套对象或大文本输入。
测试代码维护性：新增三个文件增加维护负担，但遵循现有测试约定。
依赖基类变更：测试使用CustomTestCase，若该基类接口变动可能影响测试运行。无性能、安全或兼容性风险，因为这是纯测试代码。

对用户：无直接影响，但间接提高系统可靠性，减少功能调用检测相关的潜在bug。对系统：增加单元测试覆盖率，为Hermes、Llama32、Mistral检测器提供回归保护，未来变更更容易验证。对团队：促进测试文化，为类似检测器测试提供模板；CI运行时间略有增加，但可接受。

测试覆盖不全面依赖外部基类

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR #21399 分析报告

执行摘要

本PR为sglang的功能调用检测器模块新增了39个CPU-only单元测试，覆盖Hermes、Llama32、Mistral三种格式，旨在提高测试覆盖率和代码可靠性。通过全面测试单/多工具调用、流式解析等场景，并为CI注册，加强了回归保护，是一轮有意义的测试维护改进。

功能与动机

此变更源于Issue #20865（Improve Unit Test Coverage），作者在PR body中明确指出Hermes、Llama32、Mistral检测器之前未经测试，存在潜在盲点。新增测试旨在验证has_tool_call、detect_and_parse等方法在各种输入（如畸形JSON、前导文本、流式分块）下的行为，确保功能调用解析逻辑的健壮性。

实现拆解

文件	测试数	关键覆盖点
`test_hermes_detector.py`	11	`<tool_call>` JSON格式、流式增量解析、畸形JSON处理
`test_llama32_detector.py`	12	`<\|python_tag\|>`和纯JSON格式、新增流式测试
`test_mistral_detector.py`	16	`[TOOL_CALLS]`数组和紧凑格式、前导文本剥离

所有测试类继承CustomTestCase，使用register_cpu_ci(1.0, "stage-a-test-cpu")注册，无需GPU资源，纯CPU运行。关键测试方法示例如下：

def test_streaming_incremental_parsing(self):
    chunks = ['<tool_call>{', '"name": "get_weather",', '"arguments": {"city": "Beijing"}}</tool_call>']
    all_calls = []
    for chunk in chunks:
        result = self.detector.detect_and_parse(chunk, self.tools)
        all_calls.extend(result.calls)
    self.assertEqual(len(all_calls), 1) # 加强后的断言

评论区精华

基类选择：reviewer ispobock指出“请使用CustomTestCase而不是unittest.TestCase”，作者迅速在b08821eb8提交中修正，体现测试框架一致性要求。
套件命名争议：关于“stage-a-test-cpu” vs “stage-a-cpu-only”，作者引用现有CI配置和78个测试文件的先例，坚持原名称，显示对基础设施约定的尊重。
测试质量提升：gemini-code-assist[bot]建议“流式测试断言应验证具体数量和内容”，作者不仅加强断言，还补充了Llama32和Mistral的缺失流式测试，并在畸形JSON测试中添加normal_text验证，提升测试严谨性。

风险与影响

风险：极低。主要风险是测试覆盖可能不全（如极端边界条件未覆盖）和依赖CustomTestCase基类变更（若接口变动可能影响测试运行）。无性能、安全或兼容性问题。

影响：正面。对用户间接提高系统可靠性；对系统增加测试覆盖率，为关键检测器提供回归保护；对团队促进测试文化，提供测试设计范例，CI负载轻微增加（新增39个测试约3.93秒）。

关联脉络

与近期PR如#21400（添加auth模块单元测试）和#22158（修复语法后端测试）同属测试覆盖提升计划，反映团队在推进单元测试完整性的趋势。这些PR共享test、run-ci、consistency标签，表明仓库正系统性地加强测试基础设施。未来可能扩展至其他未测试模块，形成持续改进闭环。

#21399 [CI] Add unit tests for function_call detectors (hermes, llama32, mistral)

执行摘要

添加 Hermes、Llama32、Mistral 功能调用检测器的 39 个 CPU-only 单元测试。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论