执行摘要

为混合 SWA 模型添加运行时繁忙内存检查支持，修复 NotImplementedError。

根据PR body描述，此前self_check_during_busy调用tree_cache.protected_size()，在SWARadixCache上会抛出NotImplementedError。因此需要为混合SWA模型（具有分离的完整和SWA KV缓存池）添加相应的繁忙内存检查支持，并处理流式会话尚未支持的情况。

该PR值得内存管理和调度器模块的工程师精读，特别是关注_get_total_uncached_sizes中双池未缓存令牌的计算逻辑，以及_self_check_during_busy_swa中双池守恒不变性的设计。对于使用SWA模型的团队，建议验证新检查在各自场景下的行为。

讨论亮点

由于review评论为空，没有公开的讨论记录。从提交历史看，作者在实现过程中进行了多次简化重构：最初添加SWA繁忙检查，然后合并未缓存大小辅助函数为单一的_get_total_uncached_sizes，最后简化了批次身份检查逻辑。

实现拆解

主要修改集中在scheduler_runtime_checker_mixin.py文件中：1）新增_get_total_uncached_sizes()方法，统一计算完整池和SWA池的未缓存令牌总数，替代原有的_get_batch_uncached_size和_get_total_uncached_size；2）新增_self_check_during_busy_swa()方法，为SWA模型实现双池守恒不变性检查；3）从现有逻辑中提取_self_check_during_busy_default()作为默认检查；4）在self_check_during_busy()中添加对SessionAwareCache的早期返回。此外，在两个测试文件中启用了严格内存检查环境变量。

文件	模块	状态	重要度
`python/sglang/srt/managers/scheduler_runtime_checker_mixin.py`	scheduler	modified	9.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

_get_total_uncached_sizes _self_check_during_busy_swa _self_check_during_busy_default self_check_during_busy

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

1）回归风险：修改了核心内存检查逻辑，可能影响现有非SWA模型的繁忙检查正确性，但作者通过保留提取的默认检查方法并运行相关测试（如test_radix_attention.py、test_retract_decode.py）来缓解。2）性能影响：新增的双池计算可能增加少量开销，但仅在繁忙检查启用时触发。3）兼容性：当流式会话启用时跳过检查，可能掩盖潜在内存问题，但这是已知限制。4）测试覆盖：虽然启用了两个SWA相关测试的环境变量，但未看到针对新检查逻辑的专项测试。

对用户：使混合SWA模型能够启用严格内存检查，有助于在高压场景下及早发现内存泄漏或溢出问题，提升系统稳定性。对系统：扩展了内存检查机制对新兴SWA架构的支持，保持了内存安全 invariant 的完整性。对团队：代码结构更清晰，将SWA特定逻辑分离，便于后续维护和扩展。

核心路径变更缺少专项测试

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR为混合SWA（Sliding Window Attention）模型添加了运行时繁忙内存检查支持，修复了此前在SWARadixCache上调用tree_cache.protected_size()会抛出NotImplementedError的问题。通过重构内存检查逻辑，新增双池未缓存令牌计数和特定检查方法，使SWA架构能够启用严格内存检查，有助于在高压场景下及早发现内存问题。该变更属于中等重要度的功能扩展，对内存管理和调度器模块有直接价值。

功能与动机

为什么做：根据PR body，此前self_check_during_busy在混合SWA模型（具有分离的完整KV缓存池和SWA KV缓存池）上会失败，因为tree_cache.protected_size()在SWARadixCache上未实现。这阻碍了SWA模型启用严格内存检查，可能掩盖内存泄漏或溢出风险。

要解决的问题：

为SWA模型实现可用的繁忙内存检查。
处理流式会话尚未支持检查的情况（跳过）。
保持与非SWA模型的兼容性。

实现拆解

主要改动集中在 python/sglang/srt/managers/scheduler_runtime_checker_mixin.py：

模块	关键改动	说明
未缓存令牌计算	新增 `_get_total_uncached_sizes()`	统一计算完整池和SWA池的未缓存令牌总数，替代原有的两个辅助函数。对于SWA池，未缓存令牌 = 分配长度 - max(缓存保护长度, swa_evicted_seqlen)。
SWA特定检查	新增 `_self_check_during_busy_swa()`	为SWA模型实现双池守恒不变性检查，分别验证完整池和SWA池。
默认检查提取	提取 `_self_check_during_busy_default()`	从现有逻辑中分离出非SWA模型的默认检查，保持代码清晰。
主检查入口	修改 `self_check_during_busy()`	添加对`SessionAwareCache`的早期返回（跳过检查），并根据模型类型分派到SWA或默认检查。

此外，在两个测试文件中启用了 SGLANG_ENABLE_STRICT_MEM_CHECK_DURING_BUSY 环境变量，以验证SWA场景下的检查功能。

评论区精华

由于review评论为空，没有公开的技术讨论记录。但从提交历史可以看出实现过程中的设计决策：

初始实现：add SWA busy check using flat checker structure – 基于扁平检查器结构添加SWA繁忙检查。
简化重构：simplify: merge uncached size helpers into single _get_total_uncached_sizes – 将多个辅助函数合并为单一方法，减少重复逻辑。
进一步简化：simplify batch identity check in _get_total_uncached_sizes – 优化批次身份检查逻辑，提升代码可读性。

这些提交反映了作者对代码简洁性和可维护性的关注。

风险与影响

技术风险：

回归风险：修改了核心内存检查路径，可能意外影响非SWA模型的检查正确性。但通过保留提取的默认检查方法，并运行现有测试（如 test_radix_attention.py、test_retract_decode.py）来缓解。
性能开销：新增的双池计算在每次繁忙检查时执行，可能增加少量CPU开销，但仅在检查启用时触发，影响有限。
覆盖不足：虽然启用了两个SWA测试的环境变量，但缺乏针对新检查逻辑的专项测试，难以确保边界情况（如极端内存压力）下的行为正确。
兼容性限制：当流式会话启用时跳过检查，这是一个已知妥协，可能掩盖会话场景下的内存问题。

影响范围：

用户：SWA模型用户现在可以启用严格内存检查，有助于在并发高压场景下及早发现内存异常，提升系统稳定性。
系统：扩展了内存安全 invariant 对新兴SWA架构的支持，保持了内存管理子系统的完整性。
团队：代码结构更清晰，SWA特定逻辑被分离，便于后续维护和扩展其他缓存类型。

关联脉络

与近期历史PR的关联揭示了内存检查机制的演进方向：

PR #22562（Flatten memory checkers into composable per-pool invariant checks）同样修改了 scheduler_runtime_checker_mixin.py，将内存检查器重构为可组合的每池检查。本PR的SWA检查很可能基于该重构后的扁平结构实现，体现了架构一致性。
PR #22577（Add hisparse staging + decode offload guards to is_fully_idle()）也涉及调度器状态检查逻辑的修复，关注内存和缓存相关的不变量，显示团队对运行时正确性检查的持续投入。

从更广的视角看，本PR是SGLang对SWA等先进注意力机制支持的一部分，与之前添加SWA缓存、优化相关内核的PRs共同构成了对该架构的完整生态支持。

支持 Prhub ♥

#21499 Add SWA support for runtime busy memory check

执行摘要

为混合 SWA 模型添加运行时繁忙内存检查支持，修复 NotImplementedError。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论