Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 14:40 同步状态:空闲 下次计划:2026-06-07 15:40

PR 列表

更多筛选
2026-04-01
功能 重要性 3.00 洞察度 2.00

为MOE A2A后端添加自定义选项,以支持正确处理require_mlp_tp_gather。

该PR变更简单机械,无需深度精读,但关注MOE模块或后端集成的工程师可快速浏览以了解自定义选项的添加方式,作为基础设施扩展的参考案例。

#21554 [CI] Remove more redundant PCG tests

原始 PR · 作者 mmangkad · 合并时间 2026-04-01 07:25

测试 重要性 4.00 洞察度 3.00

移除GPT-OSS、Kimi-Linear和Qwen3 Next模型的冗余PCG测试文件。

该PR变更简单,不值得深入精读,但可以作为了解PCG默认启用策略和测试清理趋势的参考。建议团队关注类似#21485的PR,以把握测试基础设施的演进方向。

基础设施 重要性 6.00 洞察度 4.00

添加用于 nightly dev Docker 镜像的 Trivy 漏洞扫描工作流。

建议阅读此 PR 以学习如何在 CI/CD 中集成安全扫描工具,关注其使用自托管运行器、优化扫描配置以避免超时、以及处理输入安全性的设计决策,适用于类似基础设施改进场景。

基础设施 重要性 5.00 洞察度 4.00

通过本地缓存 Nvidia wheels,避免 CI 中每次运行重复下载 830 MB 文件,显著缩短安装时间。

对于 CI 维护者和工程师,此 PR 值得关注,展示了如何通过本地缓存和完整性验证优化大型依赖下载。建议学习其设计模式,并考虑推广到其他类似 CI 场景以提升效率。

缺陷修复 重要性 5.00 洞察度 4.00

修复Blackwell GPU上驱动>=595时triton_kernels MOE后端的段错误,确保GPT-OSS模型CI测试通过。

建议工程团队精读此PR,重点关注server_args.py中的后端选择设计决策和common.py中的驱动检测实现,以理解硬件兼容性处理的模式。同时,建议未来测试中覆盖更多驱动版本组合以确保鲁棒性。

#21005 Fix cuda graph max bs capture upper bound

原始 PR · 作者 weireweire · 合并时间 2026-04-01 06:20

缺陷修复 重要性 4.00 洞察度 5.00

修复CUDA图生成中最大批次大小未被包含的错误,避免性能回退。

建议技术管理者关注此PR中的设计权衡:在效率与代码安全性之间选择更安全的实现。工程师可从中学习如何在review中处理优化建议与鲁棒性考虑。变更较小,但讨论有价值,值得快速浏览以理解性能优化细节。

功能 重要性 6.00 洞察度 7.00

为MoE模型添加共享外部专家LoRA支持,并提升Qwen3-30B-A3B-Instruct-2507兼容性。

建议技术管理者和工程师精读此PR,关注以下设计决策:共享权重的内存优化策略(通过expert_dim=1减少缓冲区大小)、运行时扩展的性能权衡、以及自动检测机制的局限性。同时,review中提到的缓冲区零化问题和性能优化值得优先考虑,以确保系统稳定性和效率。

缺陷修复 重要性 6.00 洞察度 5.00

修复CI中无效的is_base_mistral补丁,避免HF API速率限制导致的429错误。

该PR值得精读,特别是对于处理外部库API调用和CI环境配置的开发者。关注如何有效补丁局部函数以及设计补丁方案时的权衡,如直接替换类方法vs使用mock库。

参与讨论