Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#27173 Fix trace_modules gate disabling default trace contexts

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-04 02:03

缺陷修复重要性 7.51 洞察度 6.00

重构 trace 模块过滤器，修复默认上下文被错误过滤

推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更，以及 trace_wrapper.py 的简化。设计决策（模块过滤器不应在 context 初始化中依赖全局 server_args）值得借鉴。合并迅速，逻辑自洽，CV 风险低。

bugfixobservabilitydiffusion

#26742 [refactor] Unify CUDA graph runner input buffers behind CudaGraphBufferRegistry

原始 PR · 作者 ch-wan · 合并时间 2026-06-04 01:54

重构重要性 9.18 洞察度 7.00

统一 CUDA Graph 输入缓冲区管理

推荐所有涉及 CUDA graph 性能优化或模型推理的开发者阅读。该 PR 展示了如何通过声明式注册表简化复杂的手写数据搬运逻辑，设计模式值得借鉴。特别关注未解决的 DSV4 replay 正确性问题，建议团队尽快安排后续修复或至少更新文档说明限制。对于不涉及 DSV4 的模型，重构风险较低可正常合入。

refactortestperformance

#27148 Improve realtime WebUI playback pacing

原始 PR · 作者 mickqian · 合并时间 2026-06-04 00:33

功能重要性 9.18 洞察度 6.00

新增实时 WebUI 播放控制器，优化帧节奏与缓冲

该 PR 值得精读，特别是 `RealtimePlaybackController` 的缓冲设计和事件切换逻辑。review 中关于 transfer 策略的讨论反映了实时流媒体中常见的权衡，值得关注。建议合并前确认除零修复已包含，并考虑增加集成测试。

diffusionperformancetest

#27171 [Docs] Update unified Text/Vision/Audio model cookbook: install + sgl-eval accuracy

原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-04 00:32

文档重要性 3.51 洞察度 3.00

更新 Gemma 4 统一模型文档的安装与精度说明

建议直接合并，文档质量提升；可作为后续模型文档的模板。

documentation

#26882 fix(mlx): set canary_manager and materialize overlap-loop inputs on Apple Silicon

原始 PR · 作者 LijuanTang94 · 合并时间 2026-06-04 00:03

缺陷修复重要性 7.20 洞察度 5.00

修复 MLX 后端 canary_manager 缺失与 overlap 循环输入缺失

建议精读以理解 MLX 后端与主调度器的交互细节。重点关注 scheduler.py 中 FutureMap 初始化顺序的调整，以及 resolve_forward_inputs 在 overlap 循环中的正确插入点。测试代码展示了如何为硬件后端驱动调度循环的单元测试模式。

bugfixmlxtest

2026-06-03

#27167 [Model] Support encoder-free unified Text/Vision/Audio model

原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-03 23:58

功能重要性 9.12 洞察度 6.00

支持 Gemma4 Unified 编码器自由多模态模型

值得精读，特别是研究如何在不重构核心架构的前提下，通过继承和轻量投影支持新多模态模型的设计模式。MTP 投机解码的集成方式也值得参考。建议在合并后关注 CI 结果，并补充性能基准测试。

featuremultimodalspeculative-decoding

#25991 [HiCache] fix: truncate prefetch key on degraded allocation

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-03 22:06

缺陷修复重要性 5.52 洞察度 4.00

修复 HiCache 降级分配时 prefetch 键截断错误

值得精读，因其展示了退化路径中细微但关键的 Bug 修复模式。鼓励为此分支编写单元测试。

bugfixhicachekv-cache

#27143 [diffusion] Batch USP replicated KV prefix all-to-all

原始 PR · 作者 mickqian · 合并时间 2026-06-03 21:22

性能优化重要性 6.55 洞察度 6.00

批量 CUDA A2A 通信优化扩散模型推理

建议在合并后尽快进行多 GPU 扩散模型的集成测试，验证正确性和性能收益。该 PR 的设计决策（合并通信与共享 stream）值得后续类似优化参考，但风险较低，可部署。

diffusionperformancecuda

第 21 / 357 页 · 共 2850 条

上一页 1 … 19 20 21 22 23 … 357 下一页