Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-02

#24229 [diffusion] chore: clean scheduler

原始 PR · 作者 mickqian · 合并时间 2026-05-02 09:30

重构 重要性 7.22 洞察度 4.00

重构Multimodal调度器请求分发与warmup日志逻辑,拆分辅助方法

建议阅读以了解Multimodal调度器的请求处理架构。`_first_generation_req` 和 `_dispatch_request` 的设计模式可以复用。但PR缺少单元测试,建议在后续合并前补充对辅助方法的测试,尤其是边界情况。

#24243 Reserve slot 0 as padding in all req pools

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-02 07:41

重构 重要性 5.87 洞察度 6.00

在所有请求池中预留 slot 0 作为填充

推荐精读,尤其是关注 `HybridReqToTokenPool` 中 Mamba 映射大小的对齐问题。本 PR 展示了如何通过一个简单统一的 padding 约定,为未来的复杂功能(DSv4)提前消除数据竞争风险,是典型的前置兼容性变更。

缺陷修复 重要性 6.04 洞察度 6.00

修复Mamba映射张量大小错误

值得精读,虽然改动小但揭示了内存池大小不匹配的潜在风险。设计上应确保索引张量与索引源(请求池)大小一致。

缺陷修复 重要性 6.06 洞察度 5.00

修复 EAGLE cuda graph 因 padding 残留和视图别名导致的 OOB

建议快速合并,该修复解决了实际运行中频繁崩溃的已知问题。值得关注的设计决策:1) 清零填充区域 vs 让下游 gather 感知 padding 的权衡;2) 使用 maybe_detect_oob 代替 clamp/assert 以避免 GPU-CPU 同步。

功能 重要性 5.33 洞察度 5.00

新增环境变量强制FlashInfer使用paged wrapper

该PR改动清晰、聚焦,适合快速合并。值得关注的设计决策是将环境变量读取提前到构造函数并缓存,避免运行时反复读取,体现了良好性能意识。开发者在CUDA graph路径上同步修改也体现了对一致性的重视。

参与讨论