重构 trace 模块过滤器,修复默认上下文被错误过滤
推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更,以及 trace_wrapper.py 的简化。设计决策(模块过滤器不应在 context 初始化中依赖全局 server_args)值得借鉴。合并迅速,逻辑自洽,CV 风险低。
SGLang is a high-performance serving framework for large language models and multimodal models.
重构 trace 模块过滤器,修复默认上下文被错误过滤
推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更,以及 trace_wrapper.py 的简化。设计决策(模块过滤器不应在 context 初始化中依赖全局 server_args)值得借鉴。合并迅速,逻辑自洽,CV 风险低。
统一 CUDA Graph 输入缓冲区管理
推荐所有涉及 CUDA graph 性能优化或模型推理的开发者阅读。该 PR 展示了如何通过声明式注册表简化复杂的手写数据搬运逻辑,设计模式值得借鉴。特别关注未解决的 DSV4 replay 正确性问题,建议团队尽快安排后续修复或至少更新文档说明限制。对于不涉及 DSV4 的模型,重构风险较低可正常合入。
新增实时 WebUI 播放控制器,优化帧节奏与缓冲
该 PR 值得精读,特别是 `RealtimePlaybackController` 的缓冲设计和事件切换逻辑。review 中关于 transfer 策略的讨论反映了实时流媒体中常见的权衡,值得关注。建议合并前确认除零修复已包含,并考虑增加集成测试。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-04 00:32
更新 Gemma 4 统一模型文档的安装与精度说明
建议直接合并,文档质量提升;可作为后续模型文档的模板。
原始 PR · 作者 LijuanTang94 · 合并时间 2026-06-04 00:03
修复 MLX 后端 canary_manager 缺失与 overlap 循环输入缺失
建议精读以理解 MLX 后端与主调度器的交互细节。重点关注 scheduler.py 中 FutureMap 初始化顺序的调整,以及 resolve_forward_inputs 在 overlap 循环中的正确插入点。测试代码展示了如何为硬件后端驱动调度循环的单元测试模式。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-03 23:58
支持 Gemma4 Unified 编码器自由多模态模型
值得精读,特别是研究如何在不重构核心架构的前提下,通过继承和轻量投影支持新多模态模型的设计模式。MTP 投机解码的集成方式也值得参考。建议在合并后关注 CI 结果,并补充性能基准测试。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-03 22:06
修复 HiCache 降级分配时 prefetch 键截断错误
值得精读,因其展示了退化路径中细微但关键的 Bug 修复模式。鼓励为此分支编写单元测试。
批量 CUDA A2A 通信优化扩散模型推理
建议在合并后尽快进行多 GPU 扩散模型的集成测试,验证正确性和性能收益。该 PR 的设计决策(合并通信与共享 stream)值得后续类似优化参考,但风险较低,可部署。
参与讨论