Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-02

#24229 [diffusion] chore: clean scheduler

原始 PR · 作者 mickqian · 合并时间 2026-05-02 09:30

重构重要性 7.22 洞察度 4.00

重构Multimodal调度器请求分发与warmup日志逻辑，拆分辅助方法

建议阅读以了解Multimodal调度器的请求处理架构。`_first_generation_req` 和 `_dispatch_request` 的设计模式可以复用。但PR缺少单元测试，建议在后续合并前补充对辅助方法的测试，尤其是边界情况。

diffusionrefactorrun-ci

#24243 Reserve slot 0 as padding in all req pools

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-02 07:41

重构重要性 5.87 洞察度 6.00

在所有请求池中预留 slot 0 作为填充

推荐精读，尤其是关注 `HybridReqToTokenPool` 中 Mamba 映射大小的对齐问题。本 PR 展示了如何通过一个简单统一的 padding 约定，为未来的复杂功能（DSv4）提前消除数据竞争风险，是典型的前置兼容性变更。

schedulingkv-cacherefactor

#24241 [bugfix] Support MIXED forward mode in TBO splitter for DP attention

原始 PR · 作者 ch-wan · 合并时间 2026-05-02 07:01

缺陷修复重要性 6.18 洞察度 4.00

修复 DP attention 与 mixed chunk 组合时的崩溃

值得合入，修复严重崩溃 bug，改动极小且带有回归测试。可关注后续是否将 `--enable-two-batch-overlap` 与 mixed chunk 的支持补全。

bugfixperformancekvcache

#24232 [core/model] Use explicit model arch for Llama4 attention backend auto-selection

原始 PR · 作者 luccafong · 合并时间 2026-05-02 06:49

重构重要性 4.94 洞察度 3.00

Llama4架构匹配改为显式常量

值得快速合并，提高代码健壮性和可维护性。无需精读。

refactor

#24244 [Bug] Size mamba mappings from req pool, not mamba pool

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-02 06:45

缺陷修复重要性 6.04 洞察度 6.00

修复Mamba映射张量大小错误

值得精读，虽然改动小但揭示了内存池大小不匹配的潜在风险。设计上应确保索引张量与索引源（请求池）大小一致。

bugfixhicachetest

#23037 [Bug Fix] Resolve EAGLE cuda graph IMA under PD + DP + MTP with GLM-5.1

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-02 04:53

缺陷修复重要性 6.06 洞察度 5.00

修复 EAGLE cuda graph 因 padding 残留和视图别名导致的 OOB

建议快速合并，该修复解决了实际运行中频繁崩溃的已知问题。值得关注的设计决策：1) 清零填充区域 vs 让下游 gather 感知 padding 的权衡；2) 使用 maybe_detect_oob 代替 clamp/assert 以避免 GPU-CPU 同步。

bugfixspeculative-decodingperformance

#24165 [core/attention] Add SGLANG_FLASHINFER_USE_PAGED env to force paged wrapper

原始 PR · 作者 luccafong · 合并时间 2026-05-02 03:52

功能重要性 5.33 洞察度 5.00

新增环境变量强制FlashInfer使用paged wrapper

该PR改动清晰、聚焦，适合快速合并。值得关注的设计决策是将环境变量读取提前到构造函数并缓存，避免运行时反复读取，体现了良好性能意识。开发者在CUDA graph路径上同步修改也体现了对一致性的重视。

featureperformancerun-ci

#24238 Add CI permissions for user luccafong, 842974287

原始 PR · 作者 merrymercy · 合并时间 2026-05-02 03:50

基础设施重要性 3.20 洞察度 2.00

新增2名用户的 CI 权限

可直接合并。此 PR 是标准的权限授予操作，代码变更清晰，review 意见已处理。

第 184 / 357 页 · 共 2850 条

上一页 1 … 182 183 184 185 186 … 357 下一页