Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-14 11:12 同步状态:空闲 下次计划:2026-06-14 12:12

PR 列表

更多筛选
2026-03-27

#21440 [Diffusion] Add qknorm rope fuse kernel

原始 PR · 作者 BBuf · 合并时间 2026-03-27 14:27

功能 重要性 7.00 洞察度 7.00

新增 fused QK RMSNorm + RoPE JIT 内核,优化扩散模型性能。

该 PR 值得精读,特别是关注 CUDA kernel 的 warp-level 优化设计(如向量化加载、warp 内计算)、融合策略如何平衡性能与兼容性,以及共享运行时 helper 的模块化实现,对高性能计算和扩散模型优化有借鉴价值。

#21503 Opt jit qknorm_across_heads cuda kernel

原始 PR · 作者 BBuf · 合并时间 2026-03-27 13:30

性能优化 重要性 6.00 洞察度 6.00

优化 JIT 内核 qknorm_across_heads 以减少寄存器压力和共享内存使用,提升性能。

建议工程师精读此 PR,重点关注 CUDA 内核中通过 grid 维度拆分工作以减少状态的设计决策,以及如何通过提前加载权重优化内存访问。对于性能优化和 JIT 内核开发有参考价值。

重构 重要性 6.00 洞察度 7.00

将downcast_fp8内核从AOT迁移到JIT,优化向量化和线程块提升性能。

建议工程师精读此PR,重点关注cast.cuh中的向量化优化和线程块设计,以及type.cuh中的类型系统重构,以学习GPU内核性能优化技巧和跨平台兼容性处理方法。此外,review讨论展示了良好的代码审查文化,值得借鉴。

#19059 [jit_kernel] Add fused_qknorm_rope JIT kernel

原始 PR · 作者 Johnsonms · 合并时间 2026-03-27 13:21

重构 重要性 6.00 洞察度 6.00

将 fused_qknorm_rope 内核从 AOT 迁移到 JIT 系统,实现无缝替换并优化性能。

建议技术管理者和工程师精读本 PR,特别关注内核模板化设计、性能调优技巧(如使用 AlignedVector 和 --use_fast_math)以及应用层回退逻辑的实现,这些对后续 JIT 内核开发有借鉴价值。

#21516 [CI] Fix nemotron nvfp4 test estimated time

原始 PR · 作者 Fridge003 · 合并时间 2026-03-27 12:53

缺陷修复 重要性 2.00 洞察度 1.00

修复 NVIDIA Nemotron 3 Super NVFP4 模型 CI 测试超时,将估计时间从 300 秒增加至 600 秒。

该 PR 变更简单,无需精读,可作为 CI 维护的参考。关注点:测试超时调整的合理性,建议后续监控测试执行时间以调查根本原因,确保不是性能回归。

#21485 Remove redundant DeepSeek V3 FP4 PCG test

原始 PR · 作者 mmangkad · 合并时间 2026-03-27 12:52

测试 重要性 4.00 洞察度 2.00

删除 DeepSeek V3 FP4 冗余 PCG 测试,优化 CI 执行时间。

该 PR 变更简单直接,值得快速浏览以了解测试清理和 CI 优化实践,无需深入精读。

#20942 chore: bump mooncake version to 0.3.10

原始 PR · 作者 ShangmingCai · 合并时间 2026-03-27 10:35

基础设施 重要性 3.00 洞察度 2.00

更新 mooncake 依赖至 0.3.10,并在 CI 中重新启用 mooncake 端点测试。

该 PR 变更简单,建议快速浏览以确认依赖更新和测试调整。对于工程师,可以关注 mooncake 版本的变更日志以了解具体改进。对于管理者,这反映了对测试稳定性的信心提升,无需深入代码细节。

重构 重要性 6.00 洞察度 5.00

重构扩散模型量化权重加载钩子到专用文件,提升代码模块化。

该 PR 值得精读,关注 TransformerQuantLoadSpec 类的设计,以及如何使用适配器模式分离不同量化格式的加载逻辑。对于从事量化或扩散模型开发的工程师,此重构展示了良好的代码组织实践,有助于学习如何清理复杂加载路径。

参与讨论