融合 Gemma4 路由为单次 Triton kernel,decode 吞吐提升 5.6%
建议技术团队精读该 PR,尤其关注:(1) int64 键打包实现单次排序的设计技巧;(2) 如何通过条件判断保持与现有量化路径的兼容;(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户,该 PR 虽不直接受益,但其 fused routing 模式可推广至其他 MoE 路由场景。
SGLang is a high-performance serving framework for large language models and multimodal models.
融合 Gemma4 路由为单次 Triton kernel,decode 吞吐提升 5.6%
建议技术团队精读该 PR,尤其关注:(1) int64 键打包实现单次排序的设计技巧;(2) 如何通过条件判断保持与现有量化路径的兼容;(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户,该 PR 虽不直接受益,但其 fused routing 模式可推广至其他 MoE 路由场景。
修复 dp-attention e2e comparator 测试 token 对齐失败
值得快速合入。该 PR 体现了对 dp-attention 跨 rank 数据布局的深入理解,修复思路清晰。对于涉及多 GPU 分布式推理的开发者,可借此 PR 了解 comparator 的 token aligner 机制。
decode端支持HiCache三层缓存预取与PD增量传输
该PR是PD项目的重要演进,值得所有关注长上下文延迟和缓存效率的读者精读。重点关注`query_storage_hit_length`中的all_reduce同步设计、`_process_hicache_local_restore`的状态机调度方式,以及如何通过继承Mixin实现功能扩展。建议后续跟进批量all_reduce优化和并发加载支持。
原始 PR · 作者 Emmanuel0612 · 合并时间 2026-06-02 15:24
为 AMD CI 注册 mamba 状态分散测试
该 PR 是标准的测试套件扩展,可快速合并。
原始 PR · 作者 liz-badada · 合并时间 2026-06-02 15:14
为 DeepSeek V4 添加可选 FP4 索引器路径
建议精读此 PR,特别是 `fp4_indexer.py` 中的分组量化策略和 `memory_pool.py` 中按标志调整布局的设计。Review 中对 kernel 中间精度的讨论也值得学习。该 PR 体现了 SGLang 在模型推理中通过量化技术进行性能-精度权衡的典型实践。
原始 PR · 作者 alisonshao · 合并时间 2026-06-02 14:40
从 nightly 测试中删除冗余的多模态 server 作业
此 PR 是一个健康的 CI 清理,建议快速合并。对于关注 CI 效率的团队有参考价值。
新增 LingBot World 实时 diffusion cookbook
建议读者阅读 LingBot World cookbook 了解实时 world model 的部署流程。文档的实时模型分类定义也值得关注,反映了 SGLang-diffusion 中离线与实时模型的架构区分。
Cosmos3 去噪性能优化,降低 7% 峰值内存
建议开发者关注注意力层 `forward_with_replicated_kv_prefix` 的设计模式,它为序列并行中处理复制前缀提供了一种低内存的拆分方案。此外,`view` 替代 `split+contiguous` 是常见的计算图优化技巧,可推广到其他类似场景。
参与讨论