Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-17

#22924 [UnifiedRadixTree]: Add HiCache hook interface for TreeComponent

原始 PR · 作者 hzh0425 · 合并时间 2026-04-17 12:09

功能重要性 7.78 洞察度 5.00

为统一基数树组件添加HiCache钩子接口，支持缓存数据在设备、主机和存储间的传输管理。

该PR值得架构师和核心缓存模块开发者精读，重点关注`CacheTransferPhase`枚举的设计和钩子方法的职责划分。这些接口为分层缓存系统提供了清晰的扩展点，是理解SGLang缓存架构演进的关键。

hicacheunified-radix-treefeature

#22990 [Bug Fix] Ensure prefill_info_table is populated before honoring disagg_prefill_dp_rank

原始 PR · 作者 ByronHsu · 合并时间 2026-04-17 11:10

缺陷修复重要性 5.22 洞察度 4.00

修复解聚模式下首个请求携带 disagg_prefill_dp_rank 时因缓存未初始化而失败的问题。

该 PR 值得精读，特别是 `_resolve_prefill_dp_rank` 方法的调整，展示了缓存初始化与客户端参数处理的正确顺序，对于理解解聚模式下的请求处理流程有参考价值。

bugfixrun-cischeduling

#20843 feat: add coordinated checkpoint prefetch for network filesystem loading

原始 PR · 作者 janbernloehr · 合并时间 2026-04-17 11:08

功能重要性 9.13 洞察度 6.00

新增协调检查点预取功能，显著减少网络文件系统加载时的冗余 I/O，提升分布式训练加载速度。

该 PR 值得精读，特别是协调预取的设计（如后台线程、节点本地 rank 分配策略）和配置集成方式；关注 `weight_utils.py` 中的实现细节、环境变量配置和测试覆盖，以了解如何在分布式系统中优化 I/O 性能。

featureperformancerun-ci

#22662 [VLM] Reduce GPU memory footprint of CUDA IPC MM feature transport

原始 PR · 作者 yhyang201 · 合并时间 2026-04-17 10:38

性能优化重要性 6.89 洞察度 6.00

优化VLM CUDA IPC传输内存占用，避免非源TP rank创建额外GPU上下文。

该PR值得精读，重点关注`_reconstruct_from_ipc_extra`中设备索引重定向的设计，这是利用CUDA IPC P2P特性避免额外上下文创建的关键技巧。同时，内存池按worker均分的策略展示了如何平衡总预算与并发性，对设计类似共享资源池有参考价值。

performancemultimodalrun-ci

#22408 [CI] Adding Gemma 4 to Nightly CI

原始 PR · 作者 kpham-sgl · 合并时间 2026-04-17 10:30

测试重要性 4.08 洞察度 3.00

在夜间CI测试中新增Gemma 4系列模型评估项，替换旧版Gemma 3测试。

该PR变更简单直接，适合快速浏览以了解CI测试模型的更新情况。值得关注的点是：1) 模型测试套件如何跟进上游模型发布；2) 性能阈值基于实际运行数据调整的实践。但无需深入分析源码逻辑。

testrun-cimultimodal

#22811 Fix for the low-probability garbled output issue in the GLM-5 series models.

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-17 09:52

缺陷修复重要性 5.55 洞察度 5.00

修复 GLM-5 系列模型在 HiCache 下低概率输出乱码问题，确保 NSA 索引读取与缓存加载同步。

该 PR 值得精读，因为它揭示了 HiCache 与 NSA 模型交互时一个微妙但关键的同步问题。关注点在于如何通过统一的 `layer_transfer_counter` 机制来协调异步缓存加载与数据访问，这是分布式缓存系统中常见的并发控制模式。

bugfixrun-cihicache

#22913 test(4-gpu-b200): split test_qwen35_models.py + bump partitions 5→6

原始 PR · 作者 alisonshao · 合并时间 2026-04-17 09:51

测试重要性 7.58 洞察度 3.00

拆分 Qwen3.5 FP4 模型测试文件并增加 CI 分区，避免超时失败。

该 PR 是基础设施优化，值得技术管理者关注 CI 配置变更以调整测试策略；工程师可参考测试分割策略，在类似场景下优化测试套件执行时间。

testrun-cirefactor

#22879 [Diffusion] [NPU] Fix multimodal gen CI

原始 PR · 作者 Makcum888e · 合并时间 2026-04-17 09:09

基础设施重要性 7.73 洞察度 5.00

分离GPU测试用例并新增NPU专用测试运行器，修复NPU CI因下载GPU模型而失败的问题。

建议团队在合并前验证CI自动分区功能是否受影响，并检查所有导入路径是否已正确更新。对于学习价值，此PR展示了如何通过分离平台特定逻辑来优化CI流程，适合关注测试架构和跨平台兼容性的工程师参考。

npurun-cidiffusion

第 242 / 357 页 · 共 2850 条

上一页 1 … 240 241 242 243 244 … 357 下一页