#21503 Opt jit qknorm_across_heads cuda kernel
作者 BBuf · 合并时间 2026-03-27 13:30
优化 JIT 内核 qknorm_across_heads 以减少寄存器压力和共享内存使用,提升性能。
建议工程师精读此 PR,重点关注 CUDA 内核中通过 grid 维度拆分工作以减少状态的设计决策,以及如何通过提前加载权重优化内存访问。对于性能优化和 JIT 内核开发有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 BBuf · 合并时间 2026-03-27 13:30
优化 JIT 内核 qknorm_across_heads 以减少寄存器压力和共享内存使用,提升性能。
建议工程师精读此 PR,重点关注 CUDA 内核中通过 grid 维度拆分工作以减少状态的设计决策,以及如何通过提前加载权重优化内存访问。对于性能优化和 JIT 内核开发有参考价值。
作者 Johnsonms · 合并时间 2026-03-27 13:21
将downcast_fp8内核从AOT迁移到JIT,优化向量化和线程块提升性能。
建议工程师精读此PR,重点关注cast.cuh中的向量化优化和线程块设计,以及type.cuh中的类型系统重构,以学习GPU内核性能优化技巧和跨平台兼容性处理方法。此外,review讨论展示了良好的代码审查文化,值得借鉴。
作者 Johnsonms · 合并时间 2026-03-27 13:21
将 fused_qknorm_rope 内核从 AOT 迁移到 JIT 系统,实现无缝替换并优化性能。
建议技术管理者和工程师精读本 PR,特别关注内核模板化设计、性能调优技巧(如使用 AlignedVector 和 --use_fast_math)以及应用层回退逻辑的实现,这些对后续 JIT 内核开发有借鉴价值。
作者 Fridge003 · 合并时间 2026-03-27 12:53
修复 NVIDIA Nemotron 3 Super NVFP4 模型 CI 测试超时,将估计时间从 300 秒增加至 600 秒。
该 PR 变更简单,无需精读,可作为 CI 维护的参考。关注点:测试超时调整的合理性,建议后续监控测试执行时间以调查根本原因,确保不是性能回归。
作者 mmangkad · 合并时间 2026-03-27 12:52
删除 DeepSeek V3 FP4 冗余 PCG 测试,优化 CI 执行时间。
该 PR 变更简单直接,值得快速浏览以了解测试清理和 CI 优化实践,无需深入精读。
作者 ShangmingCai · 合并时间 2026-03-27 10:35
更新 mooncake 依赖至 0.3.10,并在 CI 中重新启用 mooncake 端点测试。
该 PR 变更简单,建议快速浏览以确认依赖更新和测试调整。对于工程师,可以关注 mooncake 版本的变更日志以了解具体改进。对于管理者,这反映了对测试稳定性的信心提升,无需深入代码细节。
作者 mickqian · 合并时间 2026-03-27 09:58
重构扩散模型量化权重加载钩子到专用文件,提升代码模块化。
该 PR 值得精读,关注 TransformerQuantLoadSpec 类的设计,以及如何使用适配器模式分离不同量化格式的加载逻辑。对于从事量化或扩散模型开发的工程师,此重构展示了良好的代码组织实践,有助于学习如何清理复杂加载路径。
作者 hnyls2002 · 合并时间 2026-03-27 09:31
修复会话关闭时多模态特征的内存泄漏,并扩展/rerun-ut命令支持多个测试规格。
建议重点阅读session_controller.py中的_close()方法,理解会话内存清理的设计决策;CI变更可快速浏览,了解如何扩展slash命令处理多个参数。对于工程师,关注多模态特征生命周期管理的最佳实践。
参与讨论