Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-29
缺陷修复 重要性 6.18 洞察度 3.00

修复多 tokenizer 路径丢失缓存详情

**值得精读**:变更虽小,但展示了多 tokenizer 路径中字段转发的模式,是维护 metrics 一致性的关键修复。可关注同类字段是否还有遗漏。

缺陷修复 重要性 6.18 洞察度 5.00

限制load-back预驱逐仅使用full attention pool容量

值得精读,尤其是其设计权衡(避免污染基础接口的哲学)。建议 review 关注 full_available_size 在 SWA 和 HiSparse 分配器中的实现是否完整,以及未来是否有其他路径需要类似修复。

2026-05-28
重构 重要性 9.18 洞察度 6.00

GPTQ量化重构:按scheme/kernel拆分为独立模块

值得精读,尤其是`scheme`/`kernel`分离的设计模式,以及如何通过工厂方法统一不同后端的量化逻辑。对于从事量化或硬件抽象层的工程师,这是一个很好的参考案例。PR讨论中关于移除`is_xxx`检查的要点也体现了架构整洁性追求。

性能优化 重要性 9.18 洞察度 7.00

Varlen FA 加速 USPAttention masked 路径,Qwen-Image 推理提速 15%+

该 PR 值得精读,尤其是对从事 Transformer inference 性能优化的工程师。核心设计模式(Triton 融合减少 launch、metadata 预计算复用、显式契约确保兼容性)具有很高的参考价值。新增的测试用例可作为 Triton 内核测试的范例。建议关注后续是否将该模式推广到其他 attention 变体(如 cross-attention、DPO 等)。

缺陷修复 重要性 5.60 洞察度 5.00

修复 GemmaRMSNorm buffer 存储导致 CUDA Graph 失效

这是一个值得精读的微型实例:演示了 PyTorch 中 `=` 赋值与原地操作在 CUDA Graph 上下文下的关键区别。团队可借鉴此模式审查其他存在 `buffer = expr` 赋值且参与 CUDA Graph 捕获的模块。

参与讨论