修复PP+HiCache L2崩溃并引入pp_sync同步机制
值得精读,尤其是 `_pp_sync` 在调度器层面实现PP同步的设计模式。关注 `_reap_completed_async_work` 的异步管理技巧,以及 `writing_check` 中基于PP rank的条件处理。对于使用PP+HiCache的团队,建议及时合并。
标签列表
聚合结果
修复PP+HiCache L2崩溃并引入pp_sync同步机制
值得精读,尤其是 `_pp_sync` 在调度器层面实现PP同步的设计模式。关注 `_reap_completed_async_work` 的异步管理技巧,以及 `writing_check` 中基于PP rank的条件处理。对于使用PP+HiCache的团队,建议及时合并。
修正3FS后端测试的CI stage配置
可快速合并,无代码 review 必要。
修复 HiCache 3FS 测试的 CI 配置
建议回退该 PR 的变更,或同步更新 CI 套件配置(如 `.github/workflows/pr-test.yml` 等),确保 `base-b-test-4-gpu-h100` 套件存在。同时,应审查测试是否确实需要 4 GPU 资源,或者是否可以通过其他方式(如增加超时、重试机制)来解决不稳定问题。
修复 HiMamba HiCache 预取在 L3 传输后挂起
精读价值中等;对于使用 HiCache 和 Mamba 模型的开发者值得关注。建议阅读 `hi_mamba_radix_cache.py` 的 `can_terminate_prefetch` 方法,理解预取生命周期管理。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-05 15:39
支持 DeepSeek V4 HiSparse 直接 PD 主机传输,TTFT 降 7-9%
此 PR 涉及推理引擎内核、内存池、JIT 编译和远程传输多个模块的联动修改,建议所有参与 SGLang 推理引擎开发的同学精读。尤其是 `DeepSeekV4PagedHostPool` 的布局设计、`transfer_cache_dsv4_mla` 的 JIT 实现、以及 Mooncake 传输的 PP 对齐策略,具有较高的参考价值。
跨TP同步sidecar命中,SWA预取全或无
值得精读 `unified_radix_cache.py` 中打包 all_reduce 的设计模式,可复用至其他 sidecar 组件。`swa_component.py` 的全或无逻辑可作为类似“原子预取”实现的参考。但需关注 review 中遗留的 `pool_storage_result` 保护问题和 sidecar 顺序假设,建议后续修复。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-05 03:01
Mamba 预取长度截断至可用主机 KV 大小
值得关注,尤其是使用 HiCache + Mamba 模型的用户。设计上参考了 HiRadixCache 的做法,属于鲁棒性改进。建议精读 `prefetch_from_storage` 方法中的截断逻辑。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-04 21:37
修复 HiSparse 在 PP decode 路径上的兼容性
建议合并。该 PR 以极小代价修复了一个关键的兼容性缺陷,改动经过严格验证且逻辑清晰。可考虑后续跟进 `process_retract_queue` 中的同类问题。