Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-06

#27150 Support Waterfill with dynamic EPLB

原始 PR · 作者 xutizhou · 合并时间 2026-06-06 07:01

缺陷修复重要性 7.57 洞察度 5.00

修复 Waterfill 与动态 EPLB 在 fused shared experts 下的兼容性

此 PR 是 DeepEP+EPLB 兼容路径的关键修复，维护者应快速合入。代码设计清晰（通过分离 recorder ID 避免统计污染），可作为处理类似混合专家 ID 空间的参考实现。

bugfixdeepseekperformance

#24055 [SPEC][5/N] feat: batchsize-aware support for adaptive speculative_num_steps

原始 PR · 作者 maodoudou168 · 合并时间 2026-06-06 06:43

功能重要性 9.06 洞察度 7.00

为自适应推测解码增加 batch size 感知的独立 EMA 与步长切换

该 PR 扩展了自适应推测解码的核心能力，设计上考虑了向后兼容和性能优化（CUDA 图裁剪）。代码质量较高，测试覆盖充分。建议所有涉及推测解码的开发者精读，尤其是 `AdaptiveStepSlot` 和 `AdaptiveController` 的设计，以及 CUDA 图裁剪的实现思路。

featurespeculative-decodingperformance

#27329 [LoRA] Experimental fast LoRA path with `experimental_sgl_trtllm` MoE backend for FP8 and NVFP4 models

原始 PR · 作者 jybsuper · 合并时间 2026-06-06 05:45

功能重要性 9.00 洞察度 6.00

实验性快速 LoRA 路径：融合 TRT-LLM MoE + 双流重叠，FP8/NVFP4 吞吐提升 1.7x

该 PR 技术含量高，**值得精读**。核心设计（融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成）为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全，是实验性功能落地的最佳实践。建议团队在后续重构中关注：1) 将 `*_temp` 包合并到正式模块；2) 补充单元测试和 CI 集成；3) 扩展支持更多模型和硬件。

loraquantperformance

#27284 [CI] Fix Nemotron nightly mixed precision checkpoints test

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 04:51

缺陷修复重要性 5.84 洞察度 3.00

修复 Nemotron NVFP4 混合精度检查点日志错误

建议合并。修复简单明了，防御性编码思路正确，且经过测试验证。值得关注的是 TODO 注释暗示了未来应重构在线量化日志到单独模块，但非当前 PR 范围。

bugfixquant

#27166 Reland "Support NextN = 2/4 in DSV32"

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 04:43

功能重要性 7.27 洞察度 5.00

支持 DSV32 中 NextN = 2/4 的 DG 原生路径

值得精读。该 PR 展示了如何利用 DeepGEMM 原生多 token 接口优化计算密集型 kernel，尤其是 `_build_paged_mqa_schedule_2d_ctx_lens` 的布局选择逻辑和 `use_dg_native` 的 fallback 设计，对类似 speculative decoding 加速场景有参考价值。

featureattentionperformance

#27338 [Bug] Fix EAGLE draft CUDA-graph `kv_indices` under-allocation for `topk > 1`

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-06 04:22

缺陷修复重要性 6.18 洞察度 6.00

修复 EAGLE 推测解码 topk>1 时 CUDA Graph 内存越界

此 PR 值得合并，修复了明确的严重 bug。对于从事推测解码或 CUDA Graph 相关开发的工程师，建议精读 `common_template` 中的断言实现，它提供了一种低成本、高覆盖的防御性编程模式。

bugfixschedulingspeculative-decoding

#27400 docs: add Tencent Hunyuan and Poolside cards to autoregressive cookbook

原始 PR · 作者 zijiexia · 合并时间 2026-06-06 04:17

文档重要性 2.70 洞察度 2.00

在 cookbook 首页添加腾讯混元与 Poolside 卡片

建议合并。改动清晰、已验证链接可用，仅需确认 Logo 版权无争议。无需精读。

documentation

#27396 Cookbook for QAT

原始 PR · 作者 kpham-sgl · 合并时间 2026-06-06 02:18

文档重要性 4.08 洞察度 2.00

为 Gemma 4 部署交互文档新增 QAT 检查点支持

建议合入。这是一个低风险、高收益的文档更新，通过交互式组件降低了用户使用 QAT 检查点的门槛，符合 SGLang 持续丰富模型部署指南的方向。