Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-21 07:13 同步状态:空闲 下次计划:2026-04-21 08:13

PR 列表

已合并 1002 · 已分析 1002
更多筛选
2026-02-27
性能优化 重要性 6.00 洞察度 5.00

通过调优 fused_moe_triton 内核并添加 int4_w4a16 支持,显著提升 Kimi K2.5 模型在 AMD 硬件上的性能。

建议工程师精读此 PR,特别是关注 int4_w4a16 量化支持的具体实现(如权重初始化和尺度计算)和调优配置的选取策略,这对高性能计算和量化优化有参考价值。

2026-02-25
缺陷修复 重要性 4.00 洞察度 5.00

修改MultiPlatformOp中forward_npu方法默认调用原生实现以支持NPU模型。

建议阅读此PR以理解MultiPlatformOp中平台特定方法的默认实现模式,关注设计决策:在兼容性和性能之间的平衡。对于从事NPU或多平台开发的工程师,这是一个基础但重要的变更,值得学习如何通过基类修复影响广泛的兼容性问题。

参与讨论