Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-05

#24385 Fix sgl-deep-gemm release workflow

原始 PR · 作者 Fridge003 · 合并时间 2026-05-05 05:37

缺陷修复 重要性 5.02 洞察度 4.00

修复 deep-gemm wheel 发布流程中重命名和 PyPI 上传问题

对于关注发布自动化和 CI/CD 的工程师值得精读,尤其是将操作移入容器避免环境依赖的实践。但 reviewer 建议的代码优化未纳入,建议在后续 PR 中跟进。

缺陷修复 重要性 7.74 洞察度 5.00

修复流式响应中 cached_tokens_details 在 sglext 中缺失的问题

值得精读,因为展示了如何修复流式响应中字段缺失的常见模式,以及如何重构共享逻辑。设计决策:将辅助函数提取到 utils.py 以便复用,以及将 routed_experts 和 cached_tokens_details 合并到一个 sglext 块中。

#24359 Minor scheduler fixes

原始 PR · 作者 ispobock · 合并时间 2026-05-05 02:01

缺陷修复 重要性 5.55 洞察度 4.00

优化混合SWA预fill及容量检查

值得合并的微小修复,逻辑清晰。建议在合并前添加针对混合 SWA 及非 PP 场景下 `get_num_allocatable_reqs` 行为的单元测试,尤其是边界 case(token pool 接近耗尽)。

#24156 Cache FlashInfer autotune configs

原始 PR · 作者 sshleifer · 合并时间 2026-05-05 02:00

性能优化 重要性 7.25 洞察度 7.00

缓存 FlashInfer 自动调优配置

值得精读。该 PR 展示了如何通过简单的缓存机制显著优化模型初始化性能,设计上考虑了多维度缓存键和并发安全,是性能优化的良好范例。

参与讨论