Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-18 18:16 同步状态:空闲 下次计划:2026-04-18 19:16

PR 列表

已合并 957 · 已分析 957
更多筛选
2026-03-03

#19510 [Diffusion] Revert 18619

作者 BBuf · 合并时间 2026-03-03 08:15

缺陷修复 重要性 6.00 洞察度 5.00

回滚PR 18619以修复扩散模型中torch compile图捕获问题,恢复推理性能。

该PR值得精读,因为它展示了性能回归修复的典型场景和代码回滚的决策。关注点包括:并行线性层变更的设计权衡、forward方法中输出处理的正确性、以及如何避免类似健壮性问题。建议团队后续验证并行性能并修复review中提及的问题。

2026-03-01

#19536 [Perf] Optimize NSA backend metadata under MTP

作者 b8zhong · 合并时间 2026-03-01 17:59

性能优化 重要性 6.00 洞察度 6.00

优化 NSA 后端元数据生成逻辑,提升推测解码场景下的 GPU 性能。

建议关注新 Triton 内核 `seqlens_expand_triton` 的设计,以及如何将 CPU 端逻辑迁移到 GPU 以提升性能。该 PR 值得精读,学习 GPU 优化技巧和推测解码下的元数据处理策略。

2026-02-27
性能优化 重要性 6.00 洞察度 5.00

通过调优 fused_moe_triton 内核并添加 int4_w4a16 支持,显著提升 Kimi K2.5 模型在 AMD 硬件上的性能。

建议工程师精读此 PR,特别是关注 int4_w4a16 量化支持的具体实现(如权重初始化和尺度计算)和调优配置的选取策略,这对高性能计算和量化优化有参考价值。

2026-02-25
缺陷修复 重要性 4.00 洞察度 5.00

修改MultiPlatformOp中forward_npu方法默认调用原生实现以支持NPU模型。

建议阅读此PR以理解MultiPlatformOp中平台特定方法的默认实现模式,关注设计决策:在兼容性和性能之间的平衡。对于从事NPU或多平台开发的工程师,这是一个基础但重要的变更,值得学习如何通过基类修复影响广泛的兼容性问题。

参与讨论