Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-19
缺陷修复 重要性 8.45 洞察度 6.00

将 Mamba 状态操作迁移到 forward stream 消除调度竞争

该 PR 值得所有关注并发调度和 Mamba 模型的开发者精读,其“捐赠模式”和“延迟操作到 forward stream”是处理调度器与前向流之间竞争的有效模式。建议合并后关注 HiCache 兼容性修复和 review 中提到的 GPU→CPU 同步优化。

性能优化 重要性 7.12 洞察度 5.00

MIMO-v2 EPD: GPU 图像预处理与并行视频解码

值得精读,尤其是线程数调优的 benchmark 数据和权衡过程。设计上配置灵活、默认上限保守,对类似优化有参考意义。建议补充分支测试并考虑将 import torch 移到模块顶层。

功能 重要性 4.88 洞察度 2.00

B300 默认视觉注意力回退为 triton_attn

此 PR 改动简单直接,适合快速合入以确保 B300 上的多模态功能可用。建议关注后续 FA4 在 B300 上的验证进度,验证通过后恢复 fa4 默认值。

#24611 [Codex] Opt Mistral Large performace

原始 PR · 作者 BBuf · 合并时间 2026-05-19 10:59

性能优化 重要性 5.99 洞察度 4.00

为 Mistral Large 3 启用 FlashInfer AllReduce 融合并新增 FP8 MoE 配置

对于部署 Mistral Large 3 或类似高 MoE 模型的团队,建议合并并验证。该 PR 展示了为特定模型添加性能优化支持的典型模式:模型架构识别、自动启用特性、以及提供预调优内核配置。值得关注的是其包装器架构处理逻辑,可作为后续支持多模态模型的参考。

缺陷修复 重要性 8.10 洞察度 5.00

修复LTX2 resident默认卸载与stage profiling名称冲突

建议熟读base.py中注册名称与profile名称的设计,以及composed_pipeline_base中的去重逻辑,这是pipeline stage命名的重要设计决策。同时建议后续修复H200兼容性缺失。

参与讨论