Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 01:50 同步状态:空闲 下次计划:2026-04-19 02:50

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-15

#22854 [diffusion] CI: reset thresholds

作者 mickqian · 合并时间 2026-04-15 21:11

基础设施 重要性 4.81 洞察度 3.00

重置扩散模型CI性能基准阈值,更新基准数据以匹配H100运行结果。

建议:对于维护扩散模型CI的工程师,此PR值得关注基准数据的更新逻辑和容差调整策略;对于其他开发者,可了解如何通过CI脚本优化错误处理。

缺陷修复 重要性 5.11 洞察度 4.00

修复 HiSparse 解码模式下健康检查时的内存泄漏问题。

该 PR 值得快速浏览,重点关注 `process_batch_result_prebuilt` 方法中新增的 HiSparse 协调器通知逻辑。设计决策是仅修复直接导致泄漏的问题,而未采纳 review 中关于补充多模态和 MoE 清理的建议,这可能是一个权衡点,需关注后续是否会出现相关内存问题。

缺陷修复 重要性 7.02 洞察度 5.00

修复流式会话KV内存泄漏,统一尾部释放逻辑并移除重复处理。

该PR值得精读,特别是`_free_tail`的设计决策如何统一处理多种泄漏场景,以及页面对齐的重要性。关注match_prefix中前缀长度计算和断言,理解流式会话的只追加属性如何被强制执行。

缺陷修复 重要性 5.29 洞察度 4.00

修复 HiCache 在共享索引时内存释放逻辑错误,避免内存泄漏。

该 PR 值得精读,因为它揭示了 HiCache 内存池中共享索引模式下的一个关键设计决策:当索引与锚点共享时,释放操作应仅作用于锚点池,避免重复释放导致状态不一致。关注 `free` 方法的简化如何纠正了原实现中的逻辑错误。

#22790 Refactor streaming session abort handling

作者 hnyls2002 · 合并时间 2026-04-15 15:13

重构 重要性 8.22 洞察度 6.00

重构流式会话中止处理,集中化清理逻辑并添加并发控制,修复内存泄漏和状态损坏。

建议工程师精读 `session_controller.py` 和 `session_aware_cache.py`,重点关注 `finish_req` 和 `abort_req` 的设计如何解耦令牌历史和KV状态,以及 `match_prefix` 中会话分离的逻辑。这些决策对于理解流式会话的健壮性改进至关重要。

#22860 [NPU] Offloading docs update

作者 Hide-on-bushsh · 合并时间 2026-04-15 15:04

文档 重要性 2.25 洞察度 1.00

更新NPU卸载功能文档,澄清参数限制和DeepSeek专属支持。

该PR属于简单的文档更新,无需深入技术分析。对于NPU平台开发者或配置人员,建议关注文档中明确的限制条件(必须禁用CUDA图、DeepSeek专属支持),这些信息对正确配置环境至关重要。对于一般开发者,无需精读此PR。

性能优化 重要性 7.53 洞察度 5.00

为AMD平台Qwen3.5 MoE模型优化共享专家追加逻辑,用单个Triton内核融合4次内核启动以提升路由性能。

该PR值得精读,特别是对于关注高性能计算和MoE模型优化的工程师。重点关注新增的Triton内核设计,它展示了如何将多个独立操作融合为单次启动以减少开销,同时保留逐token权重的精度要求。此外,注意其平台特定性(AMD/AITER),这反映了项目中对不同硬件后端的差异化优化策略。

文档 重要性 2.02 洞察度 3.00

将 B300/GB300 的 ptxas 警告从文档底部移至 CUDA 13 安装步骤,提升可发现性。

该 PR 变更简单直接,属于文档维护性改进。对于工程师而言,无需深入阅读代码,但可以关注此次调整所体现的**文档可发现性设计原则**——将问题解决方案放置在用户最可能遇到的上下文附近,而非通用的“杂项”区域。这对于编写用户友好的技术文档有借鉴意义。

参与讨论