Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-04-25
性能优化 重要性 6.01 洞察度 4.00

权重更新路径跳过 torch.cuda.empty_cache()

建议精读。该 PR 展示了如何通过细粒度控制同步 CUDA 操作来优化性能,值得关注的设计决策是:将 `torch.cuda.empty_cache()` 从 flush 路径中分离,而不是全局移除,保持了灵活性。

#23690 Small udpate gb300 recipe for deepseek v4

原始 PR · 作者 Fridge003 · 合并时间 2026-04-25 12:35

功能 重要性 4.11 洞察度 2.00

GB300 DeepSeek-V4 低延迟与平衡配方验证通过

此 PR 为纯粹的文档更新,无技术复杂性。推荐相关团队(特别是 DeepSeek 模型部署的文档维护者)快速合并。

documentation 重要性 4.16 洞察度 3.00

标记 B200/H200 上 DeepSeek-V4 多部署方案验证通过

该 PR 是典型的文档状态更新,无需精读。但其中的 `TBD_RECIPES` 机制值得注意:它将“未提供”与“未验证”两种状态区分开来,避免未提供的配方输出被注释掉的无效命令,提升了用户体验。如果团队需要维护类似的配置清单式文档,可借鉴此模式。

#23568 Parakeet nemotron encoder

原始 PR · 作者 yhyang201 · 合并时间 2026-04-25 11:00

功能 重要性 9.18 洞察度 5.00

为 Nemotron-Nano-VL 模型添加 Parakeet 音频编码器与动态分辨率

**值得精读**:动态分辨率预算算法和视频 tubelet 压缩的设计具有良好的通用性,可复用于其他多模态模型。建议关注: 1. `compute_dynamic_image_size` 中的 budget 调整逻辑(`factor = sqrt(budget/native_patches)`)确保了宽高比保持; 2. `forward_video` 中的 tubelet 分组与 linear embedder 避免了额外的时序模型,是一种轻量方案; 3. `pad_input_ids` 对 audio 和 visual 的分离处理保证了多模态数据正确填充。 变更整体质量较高,但应尽快补充单元测试覆盖动态分支和音频路径。

性能优化 重要性 5.85 洞察度 4.00

新增 Qwen3.5-397B MoE Triton 调优配置

建议合并。该 PR 为纯增量配置,无风险,性能提升明确。值得关注的是 SGLang 的 MoE 调优框架可以自动加载此类配置,为未来模型适配提供良好范例。

参与讨论