将downcast_fp8内核从AOT迁移到JIT,优化向量化和线程块提升性能。
建议工程师精读此PR,重点关注cast.cuh中的向量化优化和线程块设计,以及type.cuh中的类型系统重构,以学习GPU内核性能优化技巧和跨平台兼容性处理方法。此外,review讨论展示了良好的代码审查文化,值得借鉴。
SGLang is a high-performance serving framework for large language models and multimodal models.
将downcast_fp8内核从AOT迁移到JIT,优化向量化和线程块提升性能。
建议工程师精读此PR,重点关注cast.cuh中的向量化优化和线程块设计,以及type.cuh中的类型系统重构,以学习GPU内核性能优化技巧和跨平台兼容性处理方法。此外,review讨论展示了良好的代码审查文化,值得借鉴。
将 fused_qknorm_rope 内核从 AOT 迁移到 JIT 系统,实现无缝替换并优化性能。
建议技术管理者和工程师精读本 PR,特别关注内核模板化设计、性能调优技巧(如使用 AlignedVector 和 --use_fast_math)以及应用层回退逻辑的实现,这些对后续 JIT 内核开发有借鉴价值。
修复 NVIDIA Nemotron 3 Super NVFP4 模型 CI 测试超时,将估计时间从 300 秒增加至 600 秒。
该 PR 变更简单,无需精读,可作为 CI 维护的参考。关注点:测试超时调整的合理性,建议后续监控测试执行时间以调查根本原因,确保不是性能回归。
删除 DeepSeek V3 FP4 冗余 PCG 测试,优化 CI 执行时间。
该 PR 变更简单直接,值得快速浏览以了解测试清理和 CI 优化实践,无需深入精读。
原始 PR · 作者 ShangmingCai · 合并时间 2026-03-27 10:35
更新 mooncake 依赖至 0.3.10,并在 CI 中重新启用 mooncake 端点测试。
该 PR 变更简单,建议快速浏览以确认依赖更新和测试调整。对于工程师,可以关注 mooncake 版本的变更日志以了解具体改进。对于管理者,这反映了对测试稳定性的信心提升,无需深入代码细节。
重构扩散模型量化权重加载钩子到专用文件,提升代码模块化。
该 PR 值得精读,关注 TransformerQuantLoadSpec 类的设计,以及如何使用适配器模式分离不同量化格式的加载逻辑。对于从事量化或扩散模型开发的工程师,此重构展示了良好的代码组织实践,有助于学习如何清理复杂加载路径。
修复会话关闭时多模态特征的内存泄漏,并扩展/rerun-ut命令支持多个测试规格。
建议重点阅读session_controller.py中的_close()方法,理解会话内存清理的设计决策;CI变更可快速浏览,了解如何扩展slash命令处理多个参数。对于工程师,关注多模态特征生命周期管理的最佳实践。
修复会话中多模态输入的内存清除和偏移调整,恢复视觉会话测试。
建议工程师精读`session_controller.py`中的偏移调整逻辑和测试文件的变更,关注多模态输入在会话中的生命周期管理。
参与讨论