优化 LingBot 实时 transformer 路径,缓存 RoPE 和时间嵌入
值得精读,特别是缓存设计和 update_cache_only 参数的使用方式。建议作者补充性能对比数据(benchmark),以量化优化效果。
SGLang is a high-performance serving framework for large language models and multimodal models.
优化 LingBot 实时 transformer 路径,缓存 RoPE 和时间嵌入
值得精读,特别是缓存设计和 update_cache_only 参数的使用方式。建议作者补充性能对比数据(benchmark),以量化优化效果。
开启 Cosmos3 VAE 并行解码
建议合并。该 PR 是低风险、高收益的小配置变更,验证充分。可精读 `cosmos3.py` 的 `__post_init__` 部分以理解并行 VAE 在 Cosmos3 中的设计权衡。
新增 ngram decode 专用 kernel,decode 计算加速 54%~86%
值得精读。该 PR 展示了如何通过分析 decode 语义简化 kernel 实现以获得显著性能提升,设计模式(thread-per-output、边界检查)对其他 token-wise 操作有借鉴意义。建议关注 `ComputeNGramIdsDecodeKernel` 的循环展开策略和 grid 大小选择。
原始 PR · 作者 pengdurice · 合并时间 2026-06-02 17:28
LTX-2 upsampler 融合 GroupNorm+SiLU kernel 加速 6.5-14x
值得精读。PR 展示了清晰的 kernel 融合集成实践:从定位热点、替换调用、编写多层次测试到添加基准测试,每一步都有详细解释。对于希望在 SGLang 或其他推理框架中应用类似优化的读者有很好参考价值。
融合 Triton kernel 优化 GDN prefill QKV 拆分
该 PR 值得精读,尤其关注以下设计决策: - **融合 kernel 的 stride 支持**:同时支持连续和非连续输入,避免额外 `contiguous()` 调用。 - **单配置 autotune 与环境变量**:在安全性(避免多配置破坏状态池)和灵活性(允许调优)之间取得平衡。 - **渐进式优化**:先从最明显的开销切入,通过量化数据验证收益。后续可进一步优化 strided 输入路径。
集中分散的 Triton 工具内核到 triton_ops 子包
值得精读,了解 sglang 中 Triton 内核的组织方式。对于新贡献者,了解 triton_ops 布局有助于快速定位内核。
原始 PR · 作者 brucechanglongxu · 合并时间 2026-06-02 16:43
暂停时清零吞吐并刷新 KV 事件
值得合并,变更小且聚焦,解决了明确的监控数据问题。对于关注可观测性的团队,可以进一步检查暂停期间的其他指标是否也需要类似处理。
PD 分解中乐观预填充,减少 TTFT
该 PR 值得精读,特别是重叠调度和状态管理的设计。建议关注 metadata buffer 分配策略和重试回退路径。对于使用 PD 分解的团队,建议评估此优化并配置合适的重试次数。
参与讨论