Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-20 13:55 同步状态:空闲 下次计划:2026-04-20 14:55
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

已合并 981 · 已分析 980
更多筛选
2026-03-03
缺陷修复 重要性 4.00 洞察度 3.00

修复DeepSeek-V3.2工具调用JSON解析错误,确保流式输出稳定。

建议开发者在处理类似错误时,考虑捕捉所有可能异常类型以增强健壮性。此PR值得快速浏览以了解错误处理模式,但需注意讨论中提出的未解决疑虑。

#19510 [Diffusion] Revert 18619

原始 PR · 作者 BBuf · 合并时间 2026-03-03 08:15

缺陷修复 重要性 6.00 洞察度 5.00

回滚PR 18619以修复扩散模型中torch compile图捕获问题,恢复推理性能。

该PR值得精读,因为它展示了性能回归修复的典型场景和代码回滚的决策。关注点包括:并行线性层变更的设计权衡、forward方法中输出处理的正确性、以及如何避免类似健壮性问题。建议团队后续验证并行性能并修复review中提及的问题。

2026-03-01

#19536 [Perf] Optimize NSA backend metadata under MTP

原始 PR · 作者 b8zhong · 合并时间 2026-03-01 17:59

性能优化 重要性 6.00 洞察度 6.00

优化 NSA 后端元数据生成逻辑,提升推测解码场景下的 GPU 性能。

建议关注新 Triton 内核 `seqlens_expand_triton` 的设计,以及如何将 CPU 端逻辑迁移到 GPU 以提升性能。该 PR 值得精读,学习 GPU 优化技巧和推测解码下的元数据处理策略。

2026-02-27
性能优化 重要性 6.00 洞察度 5.00

通过调优 fused_moe_triton 内核并添加 int4_w4a16 支持,显著提升 Kimi K2.5 模型在 AMD 硬件上的性能。

建议工程师精读此 PR,特别是关注 int4_w4a16 量化支持的具体实现(如权重初始化和尺度计算)和调优配置的选取策略,这对高性能计算和量化优化有参考价值。

2026-02-25
缺陷修复 重要性 4.00 洞察度 5.00

修改MultiPlatformOp中forward_npu方法默认调用原生实现以支持NPU模型。

建议阅读此PR以理解MultiPlatformOp中平台特定方法的默认实现模式,关注设计决策:在兼容性和性能之间的平衡。对于从事NPU或多平台开发的工程师,这是一个基础但重要的变更,值得学习如何通过基类修复影响广泛的兼容性问题。

参与讨论