Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 13:37 同步状态:空闲 下次计划:2026-06-07 14:37

PR 列表

更多筛选
2026-03-24
性能优化 重要性 6.00 洞察度 6.00

通过双流执行重叠NSA CP key all-gather与query计算,提升DeepSeek-V3.2预填充性能。

建议精读此PR以学习双流执行在重叠通信与计算中的应用。关注条件检查逻辑和同步机制的设计,以及性能分析方法如NVIDIA Nsight Systems的使用。

文档 重要性 3.00 洞察度 2.00

更新JIT内核技能文档以适配新的 `run_suite.py` CI注册流程。

建议开发者快速浏览此PR以了解JIT内核CI注册的新流程,关注`register_cuda_ci`的使用和套件名称,无需深入分析代码设计,仅作为文档更新参考。

重构 重要性 6.00 洞察度 5.00

将 JIT 内核 CI 迁移到中央化注册系统,提升测试可维护性。

建议技术管理者关注此 PR 以了解 CI 注册系统的演进,工程师可精读 test/run_suite.py 的修改和 register_cuda_ci 的调用模式,作为未来添加测试的参考。设计决策值得学习,包括套件划分、测试时间估算和禁用处理。

功能 重要性 6.00 洞察度 6.00

为混合Mamba模型添加Mamba状态卸载支持和混合缓存控制器,提升缓存命中率。

建议工程师重点阅读`hybrid_cache_controller.py`和`hi_mamba_radix_cache.py`,关注`PoolTransfer`设计如何抽象多池传输,以及`MambaPoolHost`的布局优化对性能的影响。此PR展示了缓存系统可扩展性的重要演进,适合学习分层缓存设计。

缺陷修复 重要性 6.00 洞察度 7.00

修复Z-Image序列并行sharding,支持肖像和填充分辨率,避免图像损坏。

建议技术管理者和工程师精读此PR,特别是_build_zimage_sp_plan的设计决策和denoising.py中的gather逻辑修改,以理解序列并行中处理图像几何形状的技术权衡。关注风险点,确保测试充分覆盖新路径,并评估对其他管道的潜在影响。

缺陷修复 重要性 5.00 洞察度 4.00

修复 GLM-V 和 GLM-OCR 模型中的配置检测错误和 MTP 接受率问题,提升与 transformers 5.x 的兼容性。

建议工程师精读此 PR,特别是 `weight_utils.py` 中的配置检测逻辑和 `glm_ocr.py` 的设计修正,以了解模型兼容性处理的最佳实践。关注 MTP 相关权重的加载顺序调整,这对于 speculative decoding 性能优化有参考价值。

基础设施 重要性 4.00 洞察度 5.00

将 CI 测试工作流拆分为多个文件,提升维护性。

建议工程团队,特别是负责 CI 的开发者,精读此 PR 以了解 GitHub Actions 可重用工作流的设计模式,重点关注环境变量继承机制和变化检测更新。对于技术管理者,可关注其作为基础设施重构的最佳实践案例。

参与讨论