Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-02
性能优化 重要性 7.77 洞察度 4.00

优化 LingBot 实时 transformer 路径,缓存 RoPE 和时间嵌入

值得精读,特别是缓存设计和 update_cache_only 参数的使用方式。建议作者补充性能对比数据(benchmark),以量化优化效果。

#27037 [diffusion] Enable Cosmos3 parallel decode

原始 PR · 作者 mickqian · 合并时间 2026-06-02 18:18

功能 重要性 4.90 洞察度 3.00

开启 Cosmos3 VAE 并行解码

建议合并。该 PR 是低风险、高收益的小配置变更,验证充分。可精读 `cosmos3.py` 的 `__post_init__` 部分以理解并行 VAE 在 Cosmos3 中的设计权衡。

#24757 Optimize ngram decode id computation

原始 PR · 作者 BBuf · 合并时间 2026-06-02 17:37

性能优化 重要性 8.47 洞察度 6.00

新增 ngram decode 专用 kernel,decode 计算加速 54%~86%

值得精读。该 PR 展示了如何通过分析 decode 语义简化 kernel 实现以获得显著性能提升,设计模式(thread-per-output、边界检查)对其他 token-wise 操作有借鉴意义。建议关注 `ComputeNGramIdsDecodeKernel` 的循环展开策略和 grid 大小选择。

性能优化 重要性 7.94 洞察度 6.00

LTX-2 upsampler 融合 GroupNorm+SiLU kernel 加速 6.5-14x

值得精读。PR 展示了清晰的 kernel 融合集成实践:从定位热点、替换调用、编写多层次测试到添加基准测试,每一步都有详细解释。对于希望在 SGLang 或其他推理框架中应用类似优化的读者有很好参考价值。

#26206 [GDN] Optimize prefill QKV split dispatch

原始 PR · 作者 BBuf · 合并时间 2026-06-02 16:48

性能优化 重要性 8.46 洞察度 5.00

融合 Triton kernel 优化 GDN prefill QKV 拆分

该 PR 值得精读,尤其关注以下设计决策: - **融合 kernel 的 stride 支持**:同时支持连续和非连续输入,避免额外 `contiguous()` 调用。 - **单配置 autotune 与环境变量**:在安全性(避免多配置破坏状态池)和灵活性(允许调优)之间取得平衡。 - **渐进式优化**:先从最明显的开销切入,通过量化数据验证收益。后续可进一步优化 strided 输入路径。

#26000 [codex] Centralize Triton utility kernels

原始 PR · 作者 BBuf · 合并时间 2026-06-02 16:47

重构 重要性 9.18 洞察度 6.00

集中分散的 Triton 工具内核到 triton_ops 子包

值得精读,了解 sglang 中 Triton 内核的组织方式。对于新贡献者,了解 triton_ops 布局有助于快速定位内核。

缺陷修复 重要性 5.60 洞察度 4.00

暂停时清零吞吐并刷新 KV 事件

值得合并,变更小且聚焦,解决了明确的监控数据问题。对于关注可观测性的团队,可以进一步检查暂停期间的其他指标是否也需要类似处理。

#26780 [PD] Optimistic prefill

原始 PR · 作者 cctry · 合并时间 2026-06-02 16:16

功能 重要性 9.12 洞察度 6.00

PD 分解中乐观预填充,减少 TTFT

该 PR 值得精读,特别是重叠调度和状态管理的设计。建议关注 metadata buffer 分配策略和重试回退路径。对于使用 PD 分解的团队,建议评估此优化并配置合适的重试次数。

参与讨论