#24277 [HiCache] enable ssd offload support for mooncake store
原始 PR · 作者 stmatengss · 合并时间 2026-05-14 14:07
为 Mooncake 存储后端添加 SSD 卸载支持
建议读者关注其中向后兼容的 try-except 降级处理模式,这种为可选新功能安全适配旧版本的方法在成熟项目中很有价值。同时,由于缺少单元测试对降级路径的覆盖,建议在 future 工作中补充。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 stmatengss · 合并时间 2026-05-14 14:07
为 Mooncake 存储后端添加 SSD 卸载支持
建议读者关注其中向后兼容的 try-except 降级处理模式,这种为可选新功能安全适配旧版本的方法在成熟项目中很有价值。同时,由于缺少单元测试对降级路径的覆盖,建议在 future 工作中补充。
原始 PR · 作者 alisonshao · 合并时间 2026-05-14 13:28
H200 8-GPU 测试分区从 6 缩减至 2,5 个测试移至 nightly
值得快速合并,是持续降低 CI 等待时间的有效迭代。建议后续关注夜间测试稳定性,并考虑将此类测试进一步迁移至 merge-queue 机制(如 PR body 所述)。
统一 HiCache L2 load-back 锚点到 best_match_node,修复高并发 worker crash
该 PR 是核心 bugfix,强烈建议所有启用 HiCache 的用户升级。值得精读源码中的 Full 组件锁跳过 evicted 段的设计模式,以及 SWA 组件如何利用 best_match_node 保证 walk 不越界。测试用例的 setup 函数也展示了复杂的树结构构建技巧,对理解 HiCache 测试有帮助。
原始 PR · 作者 tjdharamsi · 合并时间 2026-05-14 13:01
提前退出 logprob 扫描并提升 math 导入
值得合并。这是一个干净、低风险且易于理解的性能优化。可以精读 `_extract_score_from_logprobs` 方法以了解 Qwen3-VL 重排序的分数提取逻辑。
修复 LFM2 短卷积预填充状态污染
值得精读,展示了状态管理类 bug 的典型修复思路。可关注与 #23975 的关联,理解完整的修复链条。
CI 测试框架输出机器可读 TIMINGS 块
作为 CI 基础设施改进,值得合并。后续可基于 TIMINGS 块构建更丰富的可视化或监控面板。新引入的 `_repo_relative_path` 函数可被其他需要稳定文件路径的模块复用。
提取 CUDA stage 为可重用工作流,统一 runner_config 映射
建议 CI 相关团队阅读,可参考其如何通过可重用工作流和外部映射文件大规模裁剪 CI 配置冗余。整体设计清晰,等价性验证方法值得借鉴。
修复 DecodeRequest 缺少 priority 属性导致的崩溃
值得精读,因为:1. 示例了数据类代理属性的标准做法;2. 展示了跨模块调用在分离模式下的属性缺失 bug 模式;3. 代码变更虽小但修复了关键路径的崩溃。后续可考虑为 DecodeRequest 添加单元测试,验证所有委托属性都与 Req 同步。
参与讨论