#22555 [mem] Fix idle token_usage missing mamba_usage; add FIXME for naming

原始 PR 作者 hnyls2002 合并时间 2026-04-11 07:20 文件变更 3 提交数 2 评论 5 代码增减 +7 / -2

执行摘要

修复空闲路径下 token_usage 统计缺失 Mamba 使用量的问题，并添加字段命名澄清注释。

根据PR body描述，空闲路径在#12014引入，而预填充/解码路径在#17862重构后已正确包含mamba_usage，但空闲路径未同步更新，导致混合SSM场景下token_usage统计不准确。修复目的是确保内存使用统计的一致性。

该PR值得快速浏览，重点关注：

1) 修复逻辑如何确保混合SSM场景下统计一致性。
2) FIXME注释揭示的字段命名技术债务，可作为未来API设计参考。对于深入理解内存管理或Mamba集成的工程师有参考价值。

讨论亮点

由于review_comments_count为0，没有公开的review讨论。从提交历史看，作者分两次提交：先修复逻辑，后添加注释，表明是自审自合并的PR。

实现拆解

实现分为两部分：

1) 在scheduler_runtime_checker_mixin.py的check_memory方法中，当is_hybrid_ssm=True时，将token_usage计算从直接使用full_token_usage改为max(full_token_usage, mamba_usage)，与预填充/解码路径逻辑对齐。
2) 在io_struct.py和metrics_collector.py的token_usage字段定义处添加FIXME注释，澄清该字段实际含义为跨所有内存池的最大使用率，并指出重命名需要API弃用流程。

文件	模块	状态	重要度
`python/sglang/srt/managers/scheduler_runtime_checker_mixin.py`	scheduler	modified	8.0
`python/sglang/srt/managers/io_struct.py`	io_struct	modified	4.0
`python/sglang/srt/observability/metrics_collector.py`	observability	modified	4.0

关键符号

check_memory _get_mamba_token_info _get_token_info

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低：

1) 核心变更仅涉及统计计算逻辑，不影响实际内存分配或调度决策。
2) 修改范围小（仅3个文件，9行变更），且与现有预填充/解码路径逻辑对齐，回归风险可控。
3) 添加的FIXME注释为纯文档性质，无运行时影响。潜在风险在于token_usage字段的命名误导性可能影响监控系统解读，但注释已明确说明。

影响范围有限：

1) 对用户：无直接影响，仅内部统计修复。
2) 对系统：确保混合SSM（Mamba）场景下内存使用统计的准确性，有助于监控和调试。
3) 对团队：澄清字段含义为未来API重构（如重命名）奠定基础，但当前保持兼容性。

统计字段命名误导混合 SSM 场景一致性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该PR修复了调度器空闲路径在混合SSM（Mamba）场景下token_usage统计缺失Mamba使用量的bug，通过统一使用max(full_token_usage, mamba_usage)计算确保与预填充/解码路径一致。同时添加FIXME注释澄清字段命名问题，为未来API重构铺垫。变更影响限于内部统计准确性，风险较低。

功能与动机

根据PR body，修复动机源于历史不一致性：空闲路径在#12014引入，而预填充/解码路径在#17862重构后已正确包含mamba_usage，但空闲路径未同步更新。这导致在is_hybrid_ssm=True（混合SSM场景）时，self.stats.token_usage仅使用full_token_usage，忽略了mamba_usage，使得内存使用统计不准确。修复目标是确保所有路径（空闲、预填充、解码）的统计逻辑一致。

实现拆解

实现分为两个关键部分：

核心逻辑修复（scheduler_runtime_checker_mixin.py）：
- 在check_memory方法中，当is_hybrid_ssm=True时，将token_usage计算从直接使用full_token_usage改为max(full_token_usage, mamba_usage)。
- 代码片段：
```
full_token_usage, mamba_usage, _, _, _, _, _ = self._get_mamba_token_info()
token_usage = max(full_token_usage, mamba_usage)
```
文档注释添加（io_struct.py和metrics_collector.py）：
- 在token_usage字段定义处添加FIXME注释，说明该字段实际表示所有内存池（KV、SWA、mamba）的最大使用率，而非仅KV token使用率。
- 注释示例：# FIXME: token_usage is actually max usage across all pools (KV, SWA, mamba), not just KV token usage. Rename requires API deprecation.

评论区精华

由于该PR没有公开的review评论（review_comments_count: 0），讨论有限。从提交历史看，作者hnyls2002分两次提交：先修复逻辑（提交消息："fix idle token_usage missing mamba_usage"），后添加注释（提交消息："add FIXME for token_usage naming"），表明是自审自合并的PR。关联Issue评论中，作者通过/rerun-test和/tag-and-rerun-ci命令触发CI测试，确保修复通过现有Mamba测试套件。

风险与影响

技术风险：核心变更仅影响统计计算，不涉及内存分配或调度算法，回归风险低。但token_usage字段的命名误导性可能影响监控数据解读，不过注释已明确说明。
影响范围：
- 对用户：无直接影响，纯内部修复。
- 对系统：提升混合SSM场景下内存使用统计的准确性，有助于运维监控。
- 对团队：澄清字段含义为未来可能的API重命名（需弃用流程）提供上下文，但当前保持向后兼容。

关联脉络

历史PR关联：
- 12014：引入了空闲路径，是本修复的起源点。
- 17862：重构了预填充/解码路径以包含mamba_usage，但未更新空闲路径，导致不一致性，是本修复的直接原因。
演进趋势：该PR是SGLang内存管理演进中的小步修复，反映了项目对混合SSM（如Mamba）支持逐步完善。近期历史PR中，如#22340（修复多层EAGLE草案扩展）、#22380（优化Mamba跟踪索引性能），也涉及推测解码和Mamba优化，显示团队在该领域的持续投入。

#22555 [mem] Fix idle token_usage missing mamba_usage; add FIXME for naming

执行摘要

修复空闲路径下 token_usage 统计缺失 Mamba 使用量的问题，并添加字段命名澄清注释。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

12014：引入了空闲路径，是本修复的起源点。

17862：重构了预填充/解码路径以包含`mamba_usage`，但未更新空闲路径，导致不一致性，是本修复的直接原因。

参与讨论