Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#22789 feat: emit per-iteration forward pass metrics via ZMQ PUB

原始 PR · 作者 KrishnanPrash · 合并时间 2026-05-13 01:28

功能重要性 9.00 洞察度 7.00

新增基于 ZMQ PUB 的调度器前向传递指标实时推送

值得精读。关键设计决策：1）使用 IPC 而非 TCP 避免端口冲突和监听安全问题；2）复用 DeviceTimer 而非自行实现 GPU 计时，降低维护成本；3）通过 dp_rank 后缀解决多副本 IPC 冲突；4）waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。

featureobservabilityinfra

2026-05-12

#24730 [Cookbook]: add Laguna-XS.2 (Poolside)

原始 PR · 作者 Jiminator · 合并时间 2026-05-12 23:06

文档重要性 7.40 洞察度 4.00

添加 Laguna-XS.2 模型部署文档与交互式配置生成器

值得快速浏览 cookbook 页面和交互式组件代码，了解 SGLang 文档中部署指南的编写模式，特别是如何将 React 交互组件嵌入 Markdown 文档。对于维护者，需关注安装指南中的版本号随 SGLang 发布周期更新。

documentationcookbookdeployment

#25085 Fix swa component host hit

原始 PR · 作者 ispobock · 合并时间 2026-05-12 21:03

缺陷修复重要性 4.53 洞察度 3.00

修复 SWA 组件 host hit 计数起点错误

该 PR 修复了具体的计数问题，值得关注；建议后续结合 review 反馈评估是否需要进一步优化以处理 device-only 节点场景。

bugfixhicachekv-cache

#24595 [NPU] use causal_conv1d_update_v2 for performance

原始 PR · 作者 iridiumine · 合并时间 2026-05-12 17:04

性能优化重要性 6.08 洞察度 5.00

NPU 后端使用 causal_conv1d_update_v2 提升性能

建议精读该 PR 以了解 NPU 后端的性能优化技巧。尤其值得关注 `causal_conv1d_update_v2` 的接口变更和参数命名规范。建议作者后续处理 review 中关于 `conv_states.contiguous()` 的疑虑，确保不会意外复制。

npuperformancemamba

#23903 [Bug Fix] Reject incompatible combination of --disable-cuda-graph-padding and --enable-torch-compile

原始 PR · 作者 ppraneth · 合并时间 2026-05-12 16:18

缺陷修复重要性 4.76 洞察度 4.00

拒绝不兼容的 CUDA 图与 Torch 编译选项组合

该 PR 值得合并。它是一个小而有效的防护措施，防止用户遭遇非明显的性能陷阱。错误信息设计清晰，便于用户快速修正。对于需要深入理解 CUDA graph padding 和 torch.compile 交互的开发者，也值得一读以了解这些选项的内部机制。

bugfixperformanceinfra

#25041 Optimize uvicorn startup command

原始 PR · 作者 lw9527 · 合并时间 2026-05-12 15:28

缺陷修复重要性 6.28 洞察度 6.00

优化 Uvicorn 启动命令，修复 worker 健康检查超时问题

本 PR 是一次干净、标准的修复，值得合并。其设计思路（移除无效的 monkey patch，改用原生参数传递）可视为同类问题的正确处理模式。

bugfixinfraperformance

#24998 [fix] skip legacy minicpmv conv template for MiniCPM-V 4.6

原始 PR · 作者 AgainstEntropy · 合并时间 2026-05-12 15:27

缺陷修复重要性 5.59 洞察度 4.00

修复 MiniCPM-V 4.6 错误使用旧版 conv 模板

值得精读，是 SGLang 处理模型版本与对话模板匹配的典型案例。设计上采用双重检查（模型类型 + 正则路径），兼顾本地部署和 Hugging Face Hub 场景。

bugfixmultimodalinfra

#25021 [Tiny Fix] Disable BCG when inner layer_model unresolved

原始 PR · 作者 Oasis-Git · 合并时间 2026-05-12 14:51

缺陷修复重要性 6.06 洞察度 3.00

修复 BCG 在 layer_model 未解析时错误启动

值得合入，修复了一个边缘情况下的隐式问题。建议阅读 `breakable_cuda_graph_runner.py` 中 `__init__` 和 `can_run` 的修改，了解 BCG 的解析逻辑。