Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-13
性能优化 重要性 7.95 洞察度 6.00

STANDALONE 投机解码跳过 hidden_states 端到端捕获

值得精读,尤其是 Optional schema 的设计和 None 守卫的分布模式,可作为类似架构变更的参考。重点关注 eagle_info.py 中的 classmethod 返回类型变更和每个 producer 站点的 capture_hidden_mode 三元表达式。

功能 重要性 9.00 洞察度 7.00

新增基于 ZMQ PUB 的调度器前向传递指标实时推送

值得精读。关键设计决策:1)使用 IPC 而非 TCP 避免端口冲突和监听安全问题;2)复用 DeviceTimer 而非自行实现 GPU 计时,降低维护成本;3)通过 dp_rank 后缀解决多副本 IPC 冲突;4)waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。

2026-05-12

#24730 [Cookbook]: add Laguna-XS.2 (Poolside)

原始 PR · 作者 Jiminator · 合并时间 2026-05-12 23:06

文档 重要性 7.40 洞察度 4.00

添加 Laguna-XS.2 模型部署文档与交互式配置生成器

值得快速浏览 cookbook 页面和交互式组件代码,了解 SGLang 文档中部署指南的编写模式,特别是如何将 React 交互组件嵌入 Markdown 文档。对于维护者,需关注安装指南中的版本号随 SGLang 发布周期更新。

#25085 Fix swa component host hit

原始 PR · 作者 ispobock · 合并时间 2026-05-12 21:03

缺陷修复 重要性 4.53 洞察度 3.00

修复 SWA 组件 host hit 计数起点错误

该 PR 修复了具体的计数问题,值得关注;建议后续结合 review 反馈评估是否需要进一步优化以处理 device-only 节点场景。

性能优化 重要性 6.08 洞察度 5.00

NPU 后端使用 causal_conv1d_update_v2 提升性能

建议精读该 PR 以了解 NPU 后端的性能优化技巧。尤其值得关注 `causal_conv1d_update_v2` 的接口变更和参数命名规范。建议作者后续处理 review 中关于 `conv_states.contiguous()` 的疑虑,确保不会意外复制。

缺陷修复 重要性 4.76 洞察度 4.00

拒绝不兼容的 CUDA 图与 Torch 编译选项组合

该 PR 值得合并。它是一个小而有效的防护措施,防止用户遭遇非明显的性能陷阱。错误信息设计清晰,便于用户快速修正。对于需要深入理解 CUDA graph padding 和 torch.compile 交互的开发者,也值得一读以了解这些选项的内部机制。

参与讨论