Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#24760 [Bug Fix] Fix broken sgemm_lora_a_graph_fwd due to invalid torch.mm() call

原始 PR · 作者 flutist · 合并时间 2026-05-13 03:29

缺陷修复重要性 2.77 洞察度 2.00

修复 sgemm_lora_a_graph_fwd 中 torch.mm() 多余参数导致的 TypeError

PR 虽小，但修复了一个明确的 bug，值得快速合入。对于深入学习 LoRA 或图模式执行的开发者，可以查看该函数理解 torch.mm 的正确用法。

bugfixlorarun-ci

#25032 [CI] Temporarily disable multimodal-gen test_update_weights_from_disk (flaky)

原始 PR · 作者 alisonshao · 合并时间 2026-05-13 03:28

测试重要性 3.83 洞察度 2.00

临时禁用 flaky 测试 test_update_weights_from_disk

该 PR 为临时缓解措施，技术含量低，但管理上重要。可快速合并；后续应单独开 Issue 跟踪根因修复，避免测试永久禁用。

testcibugfix

#25037 spec: STANDALONE skips hidden_states end-to-end (Optional schema + None-safe consumers)

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-13 03:27

性能优化重要性 7.95 洞察度 6.00

STANDALONE 投机解码跳过 hidden_states 端到端捕获

值得精读，尤其是 Optional schema 的设计和 None 守卫的分布模式，可作为类似架构变更的参考。重点关注 eagle_info.py 中的 classmethod 返回类型变更和每个 producer 站点的 capture_hidden_mode 三元表达式。

performancespeculative-decodingrefactor

#22789 feat: emit per-iteration forward pass metrics via ZMQ PUB

原始 PR · 作者 KrishnanPrash · 合并时间 2026-05-13 01:28

功能重要性 9.00 洞察度 7.00

新增基于 ZMQ PUB 的调度器前向传递指标实时推送

值得精读。关键设计决策：1）使用 IPC 而非 TCP 避免端口冲突和监听安全问题；2）复用 DeviceTimer 而非自行实现 GPU 计时，降低维护成本；3）通过 dp_rank 后缀解决多副本 IPC 冲突；4）waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。

featureobservabilityinfra

2026-05-12

#24730 [Cookbook]: add Laguna-XS.2 (Poolside)

原始 PR · 作者 Jiminator · 合并时间 2026-05-12 23:06

文档重要性 7.40 洞察度 4.00

添加 Laguna-XS.2 模型部署文档与交互式配置生成器

值得快速浏览 cookbook 页面和交互式组件代码，了解 SGLang 文档中部署指南的编写模式，特别是如何将 React 交互组件嵌入 Markdown 文档。对于维护者，需关注安装指南中的版本号随 SGLang 发布周期更新。

documentationcookbookdeployment

#25085 Fix swa component host hit

原始 PR · 作者 ispobock · 合并时间 2026-05-12 21:03

缺陷修复重要性 4.53 洞察度 3.00

修复 SWA 组件 host hit 计数起点错误

该 PR 修复了具体的计数问题，值得关注；建议后续结合 review 反馈评估是否需要进一步优化以处理 device-only 节点场景。

bugfixhicachekv-cache

#24595 [NPU] use causal_conv1d_update_v2 for performance

原始 PR · 作者 iridiumine · 合并时间 2026-05-12 17:04

性能优化重要性 6.08 洞察度 5.00

NPU 后端使用 causal_conv1d_update_v2 提升性能

建议精读该 PR 以了解 NPU 后端的性能优化技巧。尤其值得关注 `causal_conv1d_update_v2` 的接口变更和参数命名规范。建议作者后续处理 review 中关于 `conv_states.contiguous()` 的疑虑，确保不会意外复制。

npuperformancemamba

#23903 [Bug Fix] Reject incompatible combination of --disable-cuda-graph-padding and --enable-torch-compile

原始 PR · 作者 ppraneth · 合并时间 2026-05-12 16:18

缺陷修复重要性 4.76 洞察度 4.00

拒绝不兼容的 CUDA 图与 Torch 编译选项组合

该 PR 值得合并。它是一个小而有效的防护措施，防止用户遭遇非明显的性能陷阱。错误信息设计清晰，便于用户快速修正。对于需要深入理解 CUDA graph padding 和 torch.compile 交互的开发者，也值得一读以了解这些选项的内部机制。

bugfixperformanceinfra

第 179 / 396 页 · 共 3165 条

上一页 1 … 177 178 179 180 181 … 396 下一页