Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#27023 [diffusion] Optimize LingBot realtime transformer path

原始 PR · 作者 mickqian · 合并时间 2026-06-02 18:33

性能优化重要性 7.77 洞察度 4.00

优化 LingBot 实时 transformer 路径，缓存 RoPE 和时间嵌入

值得精读，特别是缓存设计和 update_cache_only 参数的使用方式。建议作者补充性能对比数据（benchmark），以量化优化效果。

diffusionperformanceinfra

#27037 [diffusion] Enable Cosmos3 parallel decode

原始 PR · 作者 mickqian · 合并时间 2026-06-02 18:18

功能重要性 4.90 洞察度 3.00

开启 Cosmos3 VAE 并行解码

建议合并。该 PR 是低风险、高收益的小配置变更，验证充分。可精读 `cosmos3.py` 的 `__post_init__` 部分以理解并行 VAE 在 Cosmos3 中的设计权衡。

diffusionperformancefeature

#24757 Optimize ngram decode id computation

原始 PR · 作者 BBuf · 合并时间 2026-06-02 17:37

性能优化重要性 8.47 洞察度 6.00

新增 ngram decode 专用 kernel，decode 计算加速 54%~86%

值得精读。该 PR 展示了如何通过分析 decode 语义简化 kernel 实现以获得显著性能提升，设计模式（thread-per-output、边界检查）对其他 token-wise 操作有借鉴意义。建议关注 `ComputeNGramIdsDecodeKernel` 的循环展开策略和 grid 大小选择。

performancejit-kerneltest

#26045 Apply apply_group_norm_silu to LTX-2 latent upsampler

原始 PR · 作者 pengdurice · 合并时间 2026-06-02 17:28

性能优化重要性 7.94 洞察度 6.00

LTX-2 upsampler 融合 GroupNorm+SiLU kernel 加速 6.5-14x

值得精读。PR 展示了清晰的 kernel 融合集成实践：从定位热点、替换调用、编写多层次测试到添加基准测试，每一步都有详细解释。对于希望在 SGLang 或其他推理框架中应用类似优化的读者有很好参考价值。

performancediffusionjit-kernel

#26206 [GDN] Optimize prefill QKV split dispatch

原始 PR · 作者 BBuf · 合并时间 2026-06-02 16:48

性能优化重要性 8.46 洞察度 5.00

融合 Triton kernel 优化 GDN prefill QKV 拆分

该 PR 值得精读，尤其关注以下设计决策： - **融合 kernel 的 stride 支持**：同时支持连续和非连续输入，避免额外 `contiguous()` 调用。 - **单配置 autotune 与环境变量**：在安全性（避免多配置破坏状态池）和灵活性（允许调优）之间取得平衡。 - **渐进式优化**：先从最明显的开销切入，通过量化数据验证收益。后续可进一步优化 strided 输入路径。

performancejit-kernelattention

#26000 [codex] Centralize Triton utility kernels

原始 PR · 作者 BBuf · 合并时间 2026-06-02 16:47

重构重要性 9.18 洞察度 6.00

集中分散的 Triton 工具内核到 triton_ops 子包

值得精读，了解 sglang 中 Triton 内核的组织方式。对于新贡献者，了解 triton_ops 布局有助于快速定位内核。

refactorinfrajit-kernel

#24003 [scheduler] Zero gen_throughput and flush KV events on pause

原始 PR · 作者 brucechanglongxu · 合并时间 2026-06-02 16:43

缺陷修复重要性 5.60 洞察度 4.00

暂停时清零吞吐并刷新 KV 事件

值得合并，变更小且聚焦，解决了明确的监控数据问题。对于关注可观测性的团队，可以进一步检查暂停期间的其他指标是否也需要类似处理。

bugfixobservabilityscheduling

#26780 [PD] Optimistic prefill

原始 PR · 作者 cctry · 合并时间 2026-06-02 16:16

功能重要性 9.12 洞察度 6.00

PD 分解中乐观预填充，减少 TTFT

该 PR 值得精读，特别是重叠调度和状态管理的设计。建议关注 metadata buffer 分配策略和重试回退路径。对于使用 PD 分解的团队，建议评估此优化并配置合适的重试次数。

performancefeaturekv-cache

第 29 / 357 页 · 共 2850 条

上一页 1 … 27 28 29 30 31 … 357 下一页