Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-13
功能 重要性 9.00 洞察度 7.00

新增基于 ZMQ PUB 的调度器前向传递指标实时推送

值得精读。关键设计决策:1)使用 IPC 而非 TCP 避免端口冲突和监听安全问题;2)复用 DeviceTimer 而非自行实现 GPU 计时,降低维护成本;3)通过 dp_rank 后缀解决多副本 IPC 冲突;4)waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。

2026-05-12

#24730 [Cookbook]: add Laguna-XS.2 (Poolside)

原始 PR · 作者 Jiminator · 合并时间 2026-05-12 23:06

文档 重要性 7.40 洞察度 4.00

添加 Laguna-XS.2 模型部署文档与交互式配置生成器

值得快速浏览 cookbook 页面和交互式组件代码,了解 SGLang 文档中部署指南的编写模式,特别是如何将 React 交互组件嵌入 Markdown 文档。对于维护者,需关注安装指南中的版本号随 SGLang 发布周期更新。

#25085 Fix swa component host hit

原始 PR · 作者 ispobock · 合并时间 2026-05-12 21:03

缺陷修复 重要性 4.53 洞察度 3.00

修复 SWA 组件 host hit 计数起点错误

该 PR 修复了具体的计数问题,值得关注;建议后续结合 review 反馈评估是否需要进一步优化以处理 device-only 节点场景。

性能优化 重要性 6.08 洞察度 5.00

NPU 后端使用 causal_conv1d_update_v2 提升性能

建议精读该 PR 以了解 NPU 后端的性能优化技巧。尤其值得关注 `causal_conv1d_update_v2` 的接口变更和参数命名规范。建议作者后续处理 review 中关于 `conv_states.contiguous()` 的疑虑,确保不会意外复制。

缺陷修复 重要性 4.76 洞察度 4.00

拒绝不兼容的 CUDA 图与 Torch 编译选项组合

该 PR 值得合并。它是一个小而有效的防护措施,防止用户遭遇非明显的性能陷阱。错误信息设计清晰,便于用户快速修正。对于需要深入理解 CUDA graph padding 和 torch.compile 交互的开发者,也值得一读以了解这些选项的内部机制。

#25041 Optimize uvicorn startup command

原始 PR · 作者 lw9527 · 合并时间 2026-05-12 15:28

缺陷修复 重要性 6.28 洞察度 6.00

优化 Uvicorn 启动命令,修复 worker 健康检查超时问题

本 PR 是一次干净、标准的修复,值得合并。其设计思路(移除无效的 monkey patch,改用原生参数传递)可视为同类问题的正确处理模式。

缺陷修复 重要性 5.59 洞察度 4.00

修复 MiniCPM-V 4.6 错误使用旧版 conv 模板

值得精读,是 SGLang 处理模型版本与对话模板匹配的典型案例。设计上采用双重检查(模型类型 + 正则路径),兼顾本地部署和 Hugging Face Hub 场景。

缺陷修复 重要性 6.06 洞察度 3.00

修复 BCG 在 layer_model 未解析时错误启动

值得合入,修复了一个边缘情况下的隐式问题。建议阅读 `breakable_cuda_graph_runner.py` 中 `__init__` 和 `can_run` 的修改,了解 BCG 的解析逻辑。

参与讨论