#37460 [Core][Metrics][BugFix] Replace num_cached_tokens/num_external_computed_tokens with PrefillStats

vllm-project/vllm · 作者 markmc · 合并时间 2026-04-14 16:00

分析状态已生成

文件变更 9提交数 2 · 评论 34

代码增减 +187 / -102

v1 bugfix core kv-connector refactor

执行摘要

引入 PrefillStats 替换旧缓存令牌统计字段，修复调度器 preemption 下的 metrics 错误。

PR body指出，相关讨论#36859揭示了'Counters can only be incremented by non-negative amounts'错误，源于num_cached_tokens和num_external_computed_tokens字段在preemption下的不一致设置。此外，num_cached_tokens曾用于KV传输失败恢复，但自#38096后已不再需要，因此移除相关纠错逻辑以简化代码。

该PR值得精读，特别是调度器如何跟踪首次prefill stats的设计决策，以及review中关于metrics计算和错误处理的深度讨论，为类似场景提供了权衡案例。

讨论亮点

Review中核心讨论包括：1. gemini-code-assist[bot]指出metrics双计数问题，但markmc解释这是预期行为，计划在#38709中进一步处理；2. orozery质疑set_once()的必要性，经讨论后第二个commit移除了该行为，简化设计；3. 测试断言被指出可能不全面，但考虑到当前测试数据，决定暂不调整；4. 对PrefillStats的断言进行微调，最终确定设计。

实现拆解

实现围绕新增的PrefillStats dataclass展开：1. 在vllm/v1/metrics/stats.py中定义类，包含提示令牌总数、本地缓存、外部缓存等字段；2. 修改Request类添加prefill_stats字段，并移除旧字段；3. 调度器在schedule()方法中首次调度prefill时设置stats；4. EngineCoreOutput结构更新，用prefill_stats替换旧字段；5. 输出处理器使用新stats更新状态；6. 同步更新所有相关测试以适配新接口。

文件	模块	状态	重要度
`vllm/v1/metrics/stats.py`	metrics	modified	8.0
`vllm/v1/core/sched/scheduler.py`	scheduler	modified	9.0
`vllm/v1/engine/__init__.py`	engine	modified	7.0
`vllm/v1/request.py`	core	modified	7.0
`tests/v1/metrics/test_stats.py`	test	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

PrefillStats.set PromptTokenStats.update_from_output Request.take_prefill_stats Scheduler.schedule 中的 prefill 统计设置

评论区精华

metrics 双计数问题 正确性

gemini-code-assist[bot] 指出 PromptTokenStats.update_from_output 中存在双计数风险，同一令牌可能被同时计为 computed 和 cache hit。markmc 解释这是预期行为，引用 #33289，但计划在 #38709 中处理。

结论：保持当前逻辑，但承认问题，计划后续 PR 解决。 · 部分解决

set_once 行为移除 设计

orozery 建议移除 PrefillStats.set_once，因为调度器应负责统计，且 take_prefill_stats 在首次调度后立即调用。markmc 同意并实现移除。

结论：移除 set_once，简化代码，依赖调度器逻辑。 · 已解决

测试断言边缘情况 测试

gemini-code-assist[bot] 指出 test_prefix_caching_for_prefill_dedup 中断言可能不准确当提示长度整除 BLOCK_SIZE。markmc 回应未来场景需调整。

结论：未立即修复，测试保持原状，但意识到局限性。 · 未解决

PrefillStats 断言强化 设计

orozery 建议添加 num_prompt_tokens > 0 断言，markmc 考虑后未添加，但调整了其他逻辑。

结论：最终设计未添加该断言，但确保其他 invariants。 · 已解决

风险与影响

技术风险包括：1. 回归风险：修改了调度器核心路径和metrics计算，可能影响缓存统计准确性，尤其是在复杂preemption场景；2. 兼容性：移除num_cached_tokens和num_external_computed_tokens字段，依赖这些字段的外部代码需更新；3. 测试覆盖：尽管更新了测试，但review指出某些边缘情况（如提示长度整除BLOCK_SIZE）未充分覆盖，可能隐藏bug。

影响范围：1. 用户层面：prompt tokens metrics更准确，有助于监控和调试，但变更可能影响现有监控仪表板；2. 系统层面：代码结构简化，移除脆弱错误处理，提升可维护性；3. 团队层面：工程师需熟悉新PrefillStats结构，后续PR可能进一步清理旧字段。

核心路径变更 metrics 计算调整测试覆盖不足 API 变更

关联 Issue

#36859 [BugFix] Scheduler: Only set num_external_computed_tokens once

完整报告

执行摘要

本PR通过引入PrefillStats数据结构替换了原有的num_cached_tokens和num_external_computed_tokens字段，解决了调度器在preemption和KV传输失败下prefill统计不准确的问题，提升了metrics报告的正确性，并简化了代码路径，为后续清理奠定基础。

功能与动机

动机源于PR #36859中讨论的Counters can only be incremented by non-negative amounts错误，该错误由num_cached_tokens和num_external_computed_tokens在preemption下的不一致设置导致。PR body进一步指出，随着#38096的合并，num_cached_tokens不再用于KV传输失败恢复，因此本PR移除了脆弱的错误处理逻辑，改用PrefillStats在请求首次调度时记录统计信息，确保metrics的清晰性和准确性。

实现拆解

关键改动按模块分解：

metrics模块（vllm/v1/metrics/stats.py）：新增PrefillStats dataclass，包含num_prompt_tokens、num_local_cached_tokens等字段，并修改PromptTokenStats.update_from_output()以使用新结构。
scheduler模块（vllm/v1/core/sched/scheduler.py）：在schedule()方法中首次调度prefill时设置request.prefill_stats，并通过SchedulerOutput传递。
engine模块（vllm/v1/engine/__init__.py）：更新EngineCoreOutput，移除旧字段，添加prefill_stats可选字段。
core模块（vllm/v1/request.py）：在Request类中新增prefill_stats字段和take_prefill_stats()方法，移除num_cached_tokens和num_external_computed_tokens。
测试更新：同步修改了多个测试文件，如tests/v1/metrics/test_stats.py，以验证新逻辑的正确性。

评论区精华

Review讨论中突出以下交锋：

双计数争议：gemini-code-assist[bot]指出metrics计算可能存在双计数，但markmc解释这是预期行为，并引用#33289说明设计意图，结论是计划在#38709中进一步处理。
设计简化：orozery质疑set_once()的必要性，认为调度器应直接负责统计，经讨论后第二个commit移除了该行为，代码更简洁。
测试边界：gemini-code-assist[bot]提到测试断言在提示长度整除BLOCK_SIZE时可能不准确，markmc回应未来场景需调整，但当前暂不处理。

风险与影响

风险：核心调度路径变更可能引入回归，尤其是在复杂preemption场景；移除旧字段可能破坏依赖代码；测试覆盖不足可能隐藏边缘情况bug。
影响：用户将获得更准确的prompt tokens metrics，但需更新监控工具；系统代码更健壮，减少了错误处理复杂度；团队需适应新结构，后续PR可能继续清理。

关联脉络

本PR与多个历史PR紧密相关：

36859直接启发了本PR，修复了字段设置不一致问题。
38096为移除KV传输失败恢复逻辑提供了前提。
38709计划解决review中提及的metrics双计数问题，显示功能演进的连续性。

整体上，这一系列变更反映了vLLM在核心调度和metrics模块上持续优化，以提升可靠性和可维护性。

支持 Prhub ♥

#37460 [Core][Metrics][BugFix] Replace num_cached_tokens/num_external_computed_tokens with PrefillStats

执行摘要

引入 PrefillStats 替换旧缓存令牌统计字段，修复调度器 preemption 下的 metrics 错误。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

36859直接启发了本PR，修复了字段设置不一致问题。

38096为移除KV传输失败恢复逻辑提供了前提。

38709计划解决review中提及的metrics双计数问题，显示功能演进的连续性。

参与讨论