Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-04
缺陷修复 重要性 7.51 洞察度 6.00

重构 trace 模块过滤器,修复默认上下文被错误过滤

推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更,以及 trace_wrapper.py 的简化。设计决策(模块过滤器不应在 context 初始化中依赖全局 server_args)值得借鉴。合并迅速,逻辑自洽,CV 风险低。

重构 重要性 9.18 洞察度 7.00

统一 CUDA Graph 输入缓冲区管理

推荐所有涉及 CUDA graph 性能优化或模型推理的开发者阅读。该 PR 展示了如何通过声明式注册表简化复杂的手写数据搬运逻辑,设计模式值得借鉴。特别关注未解决的 DSV4 replay 正确性问题,建议团队尽快安排后续修复或至少更新文档说明限制。对于不涉及 DSV4 的模型,重构风险较低可正常合入。

#27148 Improve realtime WebUI playback pacing

原始 PR · 作者 mickqian · 合并时间 2026-06-04 00:33

功能 重要性 9.18 洞察度 6.00

新增实时 WebUI 播放控制器,优化帧节奏与缓冲

该 PR 值得精读,特别是 `RealtimePlaybackController` 的缓冲设计和事件切换逻辑。review 中关于 transfer 策略的讨论反映了实时流媒体中常见的权衡,值得关注。建议合并前确认除零修复已包含,并考虑增加集成测试。

缺陷修复 重要性 7.20 洞察度 5.00

修复 MLX 后端 canary_manager 缺失与 overlap 循环输入缺失

建议精读以理解 MLX 后端与主调度器的交互细节。重点关注 scheduler.py 中 FutureMap 初始化顺序的调整,以及 resolve_forward_inputs 在 overlap 循环中的正确插入点。测试代码展示了如何为硬件后端驱动调度循环的单元测试模式。

2026-06-03
功能 重要性 9.12 洞察度 6.00

支持 Gemma4 Unified 编码器自由多模态模型

值得精读,特别是研究如何在不重构核心架构的前提下,通过继承和轻量投影支持新多模态模型的设计模式。MTP 投机解码的集成方式也值得参考。建议在合并后关注 CI 结果,并补充性能基准测试。

性能优化 重要性 6.55 洞察度 6.00

批量 CUDA A2A 通信优化扩散模型推理

建议在合并后尽快进行多 GPU 扩散模型的集成测试,验证正确性和性能收益。该 PR 的设计决策(合并通信与共享 stream)值得后续类似优化参考,但风险较低,可部署。

参与讨论