Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-05
缺陷修复 重要性 7.74 洞察度 5.00

修复流式响应中 cached_tokens_details 在 sglext 中缺失的问题

值得精读,因为展示了如何修复流式响应中字段缺失的常见模式,以及如何重构共享逻辑。设计决策:将辅助函数提取到 utils.py 以便复用,以及将 routed_experts 和 cached_tokens_details 合并到一个 sglext 块中。

#24359 Minor scheduler fixes

原始 PR · 作者 ispobock · 合并时间 2026-05-05 02:01

缺陷修复 重要性 5.55 洞察度 4.00

优化混合SWA预fill及容量检查

值得合并的微小修复,逻辑清晰。建议在合并前添加针对混合 SWA 及非 PP 场景下 `get_num_allocatable_reqs` 行为的单元测试,尤其是边界 case(token pool 接近耗尽)。

#24156 Cache FlashInfer autotune configs

原始 PR · 作者 sshleifer · 合并时间 2026-05-05 02:00

性能优化 重要性 7.25 洞察度 7.00

缓存 FlashInfer 自动调优配置

值得精读。该 PR 展示了如何通过简单的缓存机制显著优化模型初始化性能,设计上考虑了多维度缓存键和并发安全,是性能优化的良好范例。

基础设施 重要性 8.23 洞察度 4.00

为 SMG 添加端到端 K8s 集成测试并接入 CI

值得精读。本 PR 展示了如何为网关组件构建端到端集成测试,尤其是 fake worker 的设计、基于 UID 的驱逐验证以及 CI 轻量构建策略,对类似组件的测试设计有参考价值。

性能优化 重要性 7.69 洞察度 7.00

融合 kernel 与 PCG 提升 Gemma4 预填充性能

建议精读 `gemma4_fused_ops.py` 中的 kernel 融合策略(减少 launch overhead 的典型模式)和 `gemma4_mm.py` 中 `model` 属性与 `__setattr__` 的设计(在不破坏 state_dict 前提下兼容 PCG 框架),这些模式对类似优化有借鉴价值。

性能优化 重要性 5.81 洞察度 6.00

直连 all-to-all 替代功能集合,提升 diffusion 去噪速度约 18%

值得精读,理解 PyTorch 函数式集合与直接集合的性能差异。建议接受 reviewer 关于显式导入 `torch.distributed` 的建议以提高代码健壮性。

参与讨论