Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 08:14 同步状态:空闲 下次计划:2026-04-19 09:14

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-27

#21503 Opt jit qknorm_across_heads cuda kernel

作者 BBuf · 合并时间 2026-03-27 13:30

性能优化 重要性 6.00 洞察度 6.00

优化 JIT 内核 qknorm_across_heads 以减少寄存器压力和共享内存使用,提升性能。

建议工程师精读此 PR,重点关注 CUDA 内核中通过 grid 维度拆分工作以减少状态的设计决策,以及如何通过提前加载权重优化内存访问。对于性能优化和 JIT 内核开发有参考价值。

重构 重要性 6.00 洞察度 7.00

将downcast_fp8内核从AOT迁移到JIT,优化向量化和线程块提升性能。

建议工程师精读此PR,重点关注cast.cuh中的向量化优化和线程块设计,以及type.cuh中的类型系统重构,以学习GPU内核性能优化技巧和跨平台兼容性处理方法。此外,review讨论展示了良好的代码审查文化,值得借鉴。

#19059 [jit_kernel] Add fused_qknorm_rope JIT kernel

作者 Johnsonms · 合并时间 2026-03-27 13:21

重构 重要性 6.00 洞察度 6.00

将 fused_qknorm_rope 内核从 AOT 迁移到 JIT 系统,实现无缝替换并优化性能。

建议技术管理者和工程师精读本 PR,特别关注内核模板化设计、性能调优技巧(如使用 AlignedVector 和 --use_fast_math)以及应用层回退逻辑的实现,这些对后续 JIT 内核开发有借鉴价值。

#21516 [CI] Fix nemotron nvfp4 test estimated time

作者 Fridge003 · 合并时间 2026-03-27 12:53

缺陷修复 重要性 2.00 洞察度 1.00

修复 NVIDIA Nemotron 3 Super NVFP4 模型 CI 测试超时,将估计时间从 300 秒增加至 600 秒。

该 PR 变更简单,无需精读,可作为 CI 维护的参考。关注点:测试超时调整的合理性,建议后续监控测试执行时间以调查根本原因,确保不是性能回归。

#20942 chore: bump mooncake version to 0.3.10

作者 ShangmingCai · 合并时间 2026-03-27 10:35

基础设施 重要性 3.00 洞察度 2.00

更新 mooncake 依赖至 0.3.10,并在 CI 中重新启用 mooncake 端点测试。

该 PR 变更简单,建议快速浏览以确认依赖更新和测试调整。对于工程师,可以关注 mooncake 版本的变更日志以了解具体改进。对于管理者,这反映了对测试稳定性的信心提升,无需深入代码细节。

重构 重要性 6.00 洞察度 5.00

重构扩散模型量化权重加载钩子到专用文件,提升代码模块化。

该 PR 值得精读,关注 TransformerQuantLoadSpec 类的设计,以及如何使用适配器模式分离不同量化格式的加载逻辑。对于从事量化或扩散模型开发的工程师,此重构展示了良好的代码组织实践,有助于学习如何清理复杂加载路径。

缺陷修复 重要性 5.00 洞察度 4.00

修复会话关闭时多模态特征的内存泄漏,并扩展/rerun-ut命令支持多个测试规格。

建议重点阅读session_controller.py中的_close()方法,理解会话内存清理的设计决策;CI变更可快速浏览,了解如何扩展slash命令处理多个参数。对于工程师,关注多模态特征生命周期管理的最佳实践。

参与讨论