Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#26502 perf(gemma4): single-launch fused router (topk + softmax + scale)

原始 PR · 作者 pyc96 · 合并时间 2026-06-02 16:00

性能优化重要性 7.98 洞察度 6.00

融合 Gemma4 路由为单次 Triton kernel，decode 吞吐提升 5.6%

建议技术团队精读该 PR，尤其关注：(1) int64 键打包实现单次排序的设计技巧；(2) 如何通过条件判断保持与现有量化路径的兼容；(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户，该 PR 虽不直接受益，但其 fused routing 模式可推广至其他 MoE 路由场景。

performancemoejit-kernel

#26996 Fix dp-attention token alignment in the dumper comparator e2e test

原始 PR · 作者 fzyzcjy · 合并时间 2026-06-02 15:50

缺陷修复重要性 3.99 洞察度 4.00

修复 dp-attention e2e comparator 测试 token 对齐失败

值得快速合入。该 PR 体现了对 dp-attention 跨 rank 数据布局的深入理解，修复思路清晰。对于涉及多 GPU 分布式推理的开发者，可借此 PR 了解 comparator 的 token aligner 机制。

bugfixtestci

#26227 [PD]: Support HiCache prefetching and pd-incremental transfer on decode side

原始 PR · 作者 hzh0425 · 合并时间 2026-06-02 15:40

功能重要性 9.36 洞察度 6.00

decode端支持HiCache三层缓存预取与PD增量传输

该PR是PD项目的重要演进，值得所有关注长上下文延迟和缓存效率的读者精读。重点关注`query_storage_hit_length`中的all_reduce同步设计、`_process_hicache_local_restore`的状态机调度方式，以及如何通过继承Mixin实现功能扩展。建议后续跟进批量all_reduce优化和并发加载支持。

hicacheperformancefeature

#26677 [AMD] Add amd ci mamba state scatter test

原始 PR · 作者 Emmanuel0612 · 合并时间 2026-06-02 15:24

测试重要性 3.21 洞察度 2.00

为 AMD CI 注册 mamba 状态分散测试

该 PR 是标准的测试套件扩展，可快速合并。

testamdci

#26209 Add FP4 Indexer for DeepSeek V4

原始 PR · 作者 liz-badada · 合并时间 2026-06-02 15:14

功能重要性 9.18 洞察度 7.00

为 DeepSeek V4 添加可选 FP4 索引器路径

建议精读此 PR，特别是 `fp4_indexer.py` 中的分组量化策略和 `memory_pool.py` 中按标志调整布局的设计。Review 中对 kernel 中间精度的讨论也值得学习。该 PR 体现了 SGLang 在模型推理中通过量化技术进行性能-精度权衡的典型实践。

deepseekperformancejit-kernel

#26985 ci: drop redundant multimodal-server jobs from nightly (Nvidia)

原始 PR · 作者 alisonshao · 合并时间 2026-06-02 14:40

基础设施重要性 4.77 洞察度 3.00

从 nightly 测试中删除冗余的多模态 server 作业

此 PR 是一个健康的 CI 清理，建议快速合并。对于关注 CI 效率的团队有参考价值。

ciinfraperformance

#26958 [diffusion] doc: add cookbook for lingbot-world

原始 PR · 作者 mickqian · 合并时间 2026-06-02 14:35

文档重要性 4.62 洞察度 3.00

新增 LingBot World 实时 diffusion cookbook

建议读者阅读 LingBot World cookbook 了解实时 world model 的部署流程。文档的实时模型分类定义也值得关注，反映了 SGLang-diffusion 中离线与实时模型的架构区分。

documentationdiffusion

#26973 [diffusion] reduce Cosmos3 denoise overhead

原始 PR · 作者 mickqian · 合并时间 2026-06-02 14:23

性能优化重要性 7.54 洞察度 6.00

Cosmos3 去噪性能优化，降低 7% 峰值内存

建议开发者关注注意力层 `forward_with_replicated_kv_prefix` 的设计模式，它为序列并行中处理复制前缀提供了一种低内存的拆分方案。此外，`view` 替代 `split+contiguous` 是常见的计算图优化技巧，可推广到其他类似场景。

diffusionperformancekv-cache

第 30 / 357 页 · 共 2850 条

上一页 1 … 28 29 30 31 32 … 357 下一页