Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-05

#24369 [Docker] fix: install nixl stub alongside nixl-cuXX binary

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 03:46

缺陷修复重要性 3.30 洞察度 5.00

Docker 中恢复 nixl stub 包安装

该 PR 修复了一个关键的回归问题，建议精读以了解 nixl 包的结构和安装最佳实践。

dockerbugfix

#22055 [HiCache] return cached_tokens_details in sglext for streaming responses

原始 PR · 作者 vladnosiv · 合并时间 2026-05-05 03:30

缺陷修复重要性 7.74 洞察度 5.00

修复流式响应中 cached_tokens_details 在 sglext 中缺失的问题

值得精读，因为展示了如何修复流式响应中字段缺失的常见模式，以及如何重构共享逻辑。设计决策：将辅助函数提取到 utils.py 以便复用，以及将 routed_experts 和 cached_tokens_details 合并到一个 sglext 块中。

hicachebugfixtest

#24374 [CI] Exclude flaky h20 stage from check-stage-health root cause set

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 02:41

基础设施重要性 2.92 洞察度 2.00

排除不稳定的 h20 阶段引发级联失败

此 PR 是小幅 CI 可靠性改进，值得合并。建议关注 h20 运行器 GPU 残留的根本原因，并考虑更长期的修复。

cibugfix

#24359 Minor scheduler fixes

原始 PR · 作者 ispobock · 合并时间 2026-05-05 02:01

缺陷修复重要性 5.55 洞察度 4.00

优化混合SWA预fill及容量检查

值得合并的微小修复，逻辑清晰。建议在合并前添加针对混合 SWA 及非 PP 场景下 `get_num_allocatable_reqs` 行为的单元测试，尤其是边界 case（token pool 接近耗尽）。

schedulingbugfixrun-ci

#24156 Cache FlashInfer autotune configs

原始 PR · 作者 sshleifer · 合并时间 2026-05-05 02:00

性能优化重要性 7.25 洞察度 7.00

缓存 FlashInfer 自动调优配置

值得精读。该 PR 展示了如何通过简单的缓存机制显著优化模型初始化性能，设计上考虑了多维度缓存键和并发安全，是性能优化的良好范例。

performancejit-kernelrun-ci

#24278 [SMG][CI] Add K8s integration tests + wire into pr-test-rust

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 01:27

基础设施重要性 8.23 洞察度 4.00

为 SMG 添加端到端 K8s 集成测试并接入 CI

值得精读。本 PR 展示了如何为网关组件构建端到端集成测试，尤其是 fake worker 的设计、基于 UID 的驱逐验证以及 CI 轻量构建策略，对类似组件的测试设计有参考价值。

model-gatewaytestrun-ci

#24048 [VLM] Optimize Gemma4 VLM with PCG and fuse RMSNorm + residual add + scalar

原始 PR · 作者 yuan-luo · 合并时间 2026-05-05 00:36

性能优化重要性 7.69 洞察度 7.00

融合 kernel 与 PCG 提升 Gemma4 预填充性能

建议精读 `gemma4_fused_ops.py` 中的 kernel 融合策略（减少 launch overhead 的典型模式）和 `gemma4_mm.py` 中 `model` 属性与 `__setattr__` 的设计（在不破坏 state_dict 前提下兼容 PCG 框架），这些模式对类似优化有借鉴价值。

performancefeaturemultimodal

#24366 [diffusion] Use direct all-to-all for USP collectives

原始 PR · 作者 mickqian · 合并时间 2026-05-05 00:08

性能优化重要性 5.81 洞察度 6.00

直连 all-to-all 替代功能集合，提升 diffusion 去噪速度约 18%

值得精读，理解 PyTorch 函数式集合与直接集合的性能差异。建议接受 reviewer 关于显式导入 `torch.distributed` 的建议以提高代码健壮性。

diffusionperformancerefactor

第 176 / 357 页 · 共 2850 条

上一页 1 … 174 175 176 177 178 … 357 下一页