Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-06-02
性能优化 重要性 7.98 洞察度 6.00

融合 Gemma4 路由为单次 Triton kernel,decode 吞吐提升 5.6%

建议技术团队精读该 PR,尤其关注:(1) int64 键打包实现单次排序的设计技巧;(2) 如何通过条件判断保持与现有量化路径的兼容;(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户,该 PR 虽不直接受益,但其 fused routing 模式可推广至其他 MoE 路由场景。

缺陷修复 重要性 3.99 洞察度 4.00

修复 dp-attention e2e comparator 测试 token 对齐失败

值得快速合入。该 PR 体现了对 dp-attention 跨 rank 数据布局的深入理解,修复思路清晰。对于涉及多 GPU 分布式推理的开发者,可借此 PR 了解 comparator 的 token aligner 机制。

功能 重要性 9.36 洞察度 6.00

decode端支持HiCache三层缓存预取与PD增量传输

该PR是PD项目的重要演进,值得所有关注长上下文延迟和缓存效率的读者精读。重点关注`query_storage_hit_length`中的all_reduce同步设计、`_process_hicache_local_restore`的状态机调度方式,以及如何通过继承Mixin实现功能扩展。建议后续跟进批量all_reduce优化和并发加载支持。

#26209 Add FP4 Indexer for DeepSeek V4

原始 PR · 作者 liz-badada · 合并时间 2026-06-02 15:14

功能 重要性 9.18 洞察度 7.00

为 DeepSeek V4 添加可选 FP4 索引器路径

建议精读此 PR,特别是 `fp4_indexer.py` 中的分组量化策略和 `memory_pool.py` 中按标志调整布局的设计。Review 中对 kernel 中间精度的讨论也值得学习。该 PR 体现了 SGLang 在模型推理中通过量化技术进行性能-精度权衡的典型实践。

文档 重要性 4.62 洞察度 3.00

新增 LingBot World 实时 diffusion cookbook

建议读者阅读 LingBot World cookbook 了解实时 world model 的部署流程。文档的实时模型分类定义也值得关注,反映了 SGLang-diffusion 中离线与实时模型的架构区分。

#26973 [diffusion] reduce Cosmos3 denoise overhead

原始 PR · 作者 mickqian · 合并时间 2026-06-02 14:23

性能优化 重要性 7.54 洞察度 6.00

Cosmos3 去噪性能优化,降低 7% 峰值内存

建议开发者关注注意力层 `forward_with_replicated_kv_prefix` 的设计模式,它为序列并行中处理复制前缀提供了一种低内存的拆分方案。此外,`view` 替代 `split+contiguous` 是常见的计算图优化技巧,可推广到其他类似场景。

参与讨论