Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-15
缺陷修复 重要性 6.33 洞察度 3.00

为 mini_lb 功能添加 Rust 依赖缺失时的降级处理,避免导入失败。

该 PR 变更简单直接,适合快速浏览以了解环境兼容性处理模式。值得关注的设计决策是使用 try-except 进行可选依赖导入,这是一种常见的 Python 模块化技术。

文档 重要性 5.48 洞察度 4.00

更新 ModelOpt 量化文档并扩展 B200 GPU 上的 CI 测试覆盖。

建议快速浏览文档更新部分以了解量化模型的最新支持;重点关注 `_make_modelopt_ci_case` 函数的设计,它展示了如何标准化创建量化测试用例;检查测试文件中的死引用问题是否已解决。

#22854 [diffusion] CI: reset thresholds

原始 PR · 作者 mickqian · 合并时间 2026-04-15 21:11

基础设施 重要性 4.81 洞察度 3.00

重置扩散模型CI性能基准阈值,更新基准数据以匹配H100运行结果。

建议:对于维护扩散模型CI的工程师,此PR值得关注基准数据的更新逻辑和容差调整策略;对于其他开发者,可了解如何通过CI脚本优化错误处理。

缺陷修复 重要性 5.11 洞察度 4.00

修复 HiSparse 解码模式下健康检查时的内存泄漏问题。

该 PR 值得快速浏览,重点关注 `process_batch_result_prebuilt` 方法中新增的 HiSparse 协调器通知逻辑。设计决策是仅修复直接导致泄漏的问题,而未采纳 review 中关于补充多模态和 MoE 清理的建议,这可能是一个权衡点,需关注后续是否会出现相关内存问题。

缺陷修复 重要性 7.02 洞察度 5.00

修复流式会话KV内存泄漏,统一尾部释放逻辑并移除重复处理。

该PR值得精读,特别是`_free_tail`的设计决策如何统一处理多种泄漏场景,以及页面对齐的重要性。关注match_prefix中前缀长度计算和断言,理解流式会话的只追加属性如何被强制执行。

缺陷修复 重要性 5.29 洞察度 4.00

修复 HiCache 在共享索引时内存释放逻辑错误,避免内存泄漏。

该 PR 值得精读,因为它揭示了 HiCache 内存池中共享索引模式下的一个关键设计决策:当索引与锚点共享时,释放操作应仅作用于锚点池,避免重复释放导致状态不一致。关注 `free` 方法的简化如何纠正了原实现中的逻辑错误。

#22790 Refactor streaming session abort handling

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-15 15:13

重构 重要性 8.22 洞察度 6.00

重构流式会话中止处理,集中化清理逻辑并添加并发控制,修复内存泄漏和状态损坏。

建议工程师精读 `session_controller.py` 和 `session_aware_cache.py`,重点关注 `finish_req` 和 `abort_req` 的设计如何解耦令牌历史和KV状态,以及 `match_prefix` 中会话分离的逻辑。这些决策对于理解流式会话的健壮性改进至关重要。

#22860 [NPU] Offloading docs update

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-15 15:04

文档 重要性 2.25 洞察度 1.00

更新NPU卸载功能文档,澄清参数限制和DeepSeek专属支持。

该PR属于简单的文档更新,无需深入技术分析。对于NPU平台开发者或配置人员,建议关注文档中明确的限制条件(必须禁用CUDA图、DeepSeek专属支持),这些信息对正确配置环境至关重要。对于一般开发者,无需精读此PR。

参与讨论