Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-25
性能优化 重要性 7.60 洞察度 5.00

VAE channels_last_3d 默认策略改为模型感知自动选择

该 PR 是性能优化与策略精细化的良好实践,设计决策基于详细 benchmark 数据,可信赖。建议部署前确认关键模型在预期默认值下的表现。若用户对特定模型有明确偏好,可通过设置 `SGLANG_DIFFUSION_VAE_CHANNELS_LAST_3D=true` 或 `false` 覆盖默认策略。

缺陷修复 重要性 5.84 洞察度 6.00

修复 SWA 分裂叶子在 write-through 下丢失备份的 bug

值得精读:patch 虽小但修复了 write-through + SWA 路径下缓存一致性 bug,递归备份方案设计简洁,测试完整。关注 `write_backup` 中递归的边界条件,以及测试对 `swa_evicted_seqlen` 的构造方式。

2026-05-24
功能 重要性 8.59 洞察度 5.00

为指标收集器添加类级DI,支持可插拔后端

本 PR 的设计模式(类级 DI + 角色映射 + resolve_collector_class 辅助函数)值得嵌入式框架开发者参考。建议关注 _StatLoggerDIMixin 的声明方式以及 from_cli_args 的适应性修改。

性能优化 重要性 7.45 洞察度 4.00

优化 VLM 预处理输入的 CUDA IPC 暂存

值得精读。该 PR 展示了一个典型的性能优化思路:识别重复的设备调用并延迟执行,同时将分散逻辑集中化。建议关注 `has_cuda_ipc_proxy` 的引入以及 `reconstruct` 设备参数的传递方式,这种模式可复用于其他 IPC 场景。

性能优化 重要性 7.03 洞察度 4.00

优化 Qwen-VL 多媒体特征 H2D 传输

值得精读。PR 展示了如何通过分析内部实现来跳过外部冗余操作的技巧,以及如何在传输中使用 `non_blocking` 提高流水线效率。但 reviewer 提出的循环同步问题未完全解决,可作为后续优化方向重点关注。

#25514 [diffusion] Clean up VSA attention hot path

原始 PR · 作者 BBuf · 合并时间 2026-05-24 16:46

重构 重要性 6.96 洞察度 5.00

优化 VSA 注意力热点路径,复用 tile buffer 并预计算 untile 索引

值得精读 tile buffer 复用和预计算索引的设计模式,可推广至其他需要频繁分配临时缓冲区的热点路径。denoising 中优先选择 sparse backend 的决策也值得关注。但对于新增参数 reviewer 意见未采纳,需关注后续是否带来兼容性成本。

#26101 [VLM] accept precomputed multimodal metadata

原始 PR · 作者 mickqian · 合并时间 2026-05-24 15:43

功能 重要性 6.80 洞察度 6.00

支持接收预计算的 VLM 元数据以减少重复计算

值得精读以了解多模态处理器如何扩展支持预计算元数据,以及如何统一处理器输出获取方式。但建议在合并后立即修复 `pad_value` 嵌套问题,并补充对预计算路径的测试覆盖。

#26165 [SRT] Store Req input ids as arrays

原始 PR · 作者 mickqian · 合并时间 2026-05-24 15:09

重构 重要性 5.55 洞察度 4.00

Req input ids 改用 array 存储

值得合并,改动小且明确。可考虑后续优化避免重复 array 转换。

参与讨论