为统一基数树组件添加HiCache钩子接口,支持缓存数据在设备、主机和存储间的传输管理。
该PR值得架构师和核心缓存模块开发者精读,重点关注`CacheTransferPhase`枚举的设计和钩子方法的职责划分。这些接口为分层缓存系统提供了清晰的扩展点,是理解SGLang缓存架构演进的关键。
SGLang is a high-performance serving framework for large language models and multimodal models.
为统一基数树组件添加HiCache钩子接口,支持缓存数据在设备、主机和存储间的传输管理。
该PR值得架构师和核心缓存模块开发者精读,重点关注`CacheTransferPhase`枚举的设计和钩子方法的职责划分。这些接口为分层缓存系统提供了清晰的扩展点,是理解SGLang缓存架构演进的关键。
修复解聚模式下首个请求携带 disagg_prefill_dp_rank 时因缓存未初始化而失败的问题。
该 PR 值得精读,特别是 `_resolve_prefill_dp_rank` 方法的调整,展示了缓存初始化与客户端参数处理的正确顺序,对于理解解聚模式下的请求处理流程有参考价值。
原始 PR · 作者 janbernloehr · 合并时间 2026-04-17 11:08
新增协调检查点预取功能,显著减少网络文件系统加载时的冗余 I/O,提升分布式训练加载速度。
该 PR 值得精读,特别是协调预取的设计(如后台线程、节点本地 rank 分配策略)和配置集成方式;关注 `weight_utils.py` 中的实现细节、环境变量配置和测试覆盖,以了解如何在分布式系统中优化 I/O 性能。
优化VLM CUDA IPC传输内存占用,避免非源TP rank创建额外GPU上下文。
该PR值得精读,重点关注`_reconstruct_from_ipc_extra`中设备索引重定向的设计,这是利用CUDA IPC P2P特性避免额外上下文创建的关键技巧。同时,内存池按worker均分的策略展示了如何平衡总预算与并发性,对设计类似共享资源池有参考价值。
在夜间CI测试中新增Gemma 4系列模型评估项,替换旧版Gemma 3测试。
该PR变更简单直接,适合快速浏览以了解CI测试模型的更新情况。值得关注的点是:1) 模型测试套件如何跟进上游模型发布;2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-17 09:52
修复 GLM-5 系列模型在 HiCache 下低概率输出乱码问题,确保 NSA 索引读取与缓存加载同步。
该 PR 值得精读,因为它揭示了 HiCache 与 NSA 模型交互时一个微妙但关键的同步问题。关注点在于如何通过统一的 `layer_transfer_counter` 机制来协调异步缓存加载与数据访问,这是分布式缓存系统中常见的并发控制模式。
原始 PR · 作者 alisonshao · 合并时间 2026-04-17 09:51
拆分 Qwen3.5 FP4 模型测试文件并增加 CI 分区,避免超时失败。
该 PR 是基础设施优化,值得技术管理者关注 CI 配置变更以调整测试策略;工程师可参考测试分割策略,在类似场景下优化测试套件执行时间。
原始 PR · 作者 Makcum888e · 合并时间 2026-04-17 09:09
分离GPU测试用例并新增NPU专用测试运行器,修复NPU CI因下载GPU模型而失败的问题。
建议团队在合并前验证CI自动分区功能是否受影响,并检查所有导入路径是否已正确更新。对于学习价值,此PR展示了如何通过分离平台特定逻辑来优化CI流程,适合关注测试架构和跨平台兼容性的工程师参考。
参与讨论