执行摘要
启用 BFCL benchmark 的 prefix caching
BFCL 是多轮 benchmark,prefix caching 能大幅提高吞吐量。PR body 中提到 'Because it's multiturn benchmark, prefix caching will greatly increase up benchmark throughput.'
简单有效的小优化,无需精读。
无讨论。
BFCL 是多轮 benchmark,prefix caching 能大幅提高吞吐量。PR body 中提到 'Because it's multiturn benchmark, prefix caching will greatly increase up benchmark throughput.'
简单有效的小优化,无需精读。
无讨论。
.buildkite/scripts/tool_call/run-bfcl-eval.sh 中,将 vLLM 服务启动参数从 --no-enable-prefix-caching 改为 --enable-prefix-caching。pip install 替换为 uv pip install,以使用更快的 UV 包管理器安装 bfcl-eval。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
.buildkite/scripts/tool_call/run-bfcl-eval.sh |
CI 脚本 | modified | 2.72 |
.buildkite/scripts/tool_call/run-bfcl-eval.sh
core-logic
唯一变更文件,包含两处修改:启用 prefix caching 和改用 uv pip。
# 安装 bfcl-eval 包:从 pip 切换到 uv pip 以获得更快安装
uv pip install "bfcl-eval>=2025.10.20.1,<2026"
# 启动 vLLM 服务时启用 prefix caching,加速多轮对话 benchmark
SERVE_ARGS=(
--tensor-parallel-size "$TP_SIZE"
--max-model-len "$MAX_MODEL_LEN"
--enforce-eager
--enable-prefix-caching # 之前为 --no-enable-prefix-caching
)
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
风险极低。变更仅涉及 CI 脚本中的两行参数,不影响核心代码。prefix caching 是 vLLM 已支持的特性,且测试表明准确率在运行间方差内,未出现回归。
影响范围仅限于 BFCL 基准测试的 CI 运行。时间缩短约 50%,可提升 CI 效率。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论