Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-14
基础设施 重要性 5.00 洞察度 5.00

回滚CUDA 13.0升级,恢复CI默认CUDA版本为12.9以解决内核测试问题。

该PR值得基础设施团队精读,关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。

重构 重要性 3.00 洞察度 4.00

将TRT-LLM注意力后端中的contiguous().view()替换为reshape(),避免不必要的内存复制。

该PR变更简单直接,值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题,建议后续跟进修复。对于学习PyTorch张量操作优化的工程师,这是一个很好的小案例。

#22122 [lora][moe] Virtual experts for LoRA MoE

原始 PR · 作者 klshuster · 合并时间 2026-04-14 05:19

功能 重要性 7.00 洞察度 6.00

为LoRA+MoE引入虚拟专家计算,通过扁平化适配器-专家组合提升多LoRA适配器推理性能。

建议技术管理者和工程师精读 `virtual_experts.py` 内核实现和 `fused_moe_triton_kernels.py` 的修改,关注虚拟专家映射算法、split-K支持以及掩码加法设计,这些是性能优化的关键决策点。

缺陷修复 重要性 4.00 洞察度 3.00

修复GLM4.7 Flash模型因_gfx95_quant_format属性缺失导致的加载失败问题。

该PR值得快速浏览,以了解GLM模型初始化中的常见陷阱。关注点:1. _gfx95_quant_format属性的作用及其在量化格式检测中的角色。2. 模型层间属性初始化的最佳实践,避免类似缺失问题。

#22593 Update CODEOWNERS for musa/mlx

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-14 03:41

基础设施 重要性 2.00 洞察度 1.00

为MLX和MUSA硬件后端目录添加CODEOWNERS配置。

这是一个简单的配置更新,无需深入阅读。对于技术管理者,可以关注MLX和MUSA后端的所有权已明确;对于工程师,除非参与这些后端开发,否则无需特别关注。

#22653 [Docker] Remove flashinfer cache copy

原始 PR · 作者 mmangkad · 合并时间 2026-04-14 00:48

基础设施 重要性 3.00 洞察度 2.00

移除Dockerfile中已失效的flashinfer缓存复制指令,修复CI构建失败。

此PR变更简单,无需精读。对于关注CI/Docker基础设施的工程师,可快速浏览以了解flashinfer缓存清理的后续动作。建议结合#22491理解完整上下文。

缺陷修复 重要性 4.00 洞察度 4.00

修复SGLang版本检测问题,使用describe模式确保正确显示当前checkout版本。

该PR值得精读,特别是对于关注包管理和版本检测机制的开发者。值得关注的设计决策包括:优先使用确切标签而非最新标签的版本检测策略,以及通过fallback_version处理无Git元数据环境的健壮性设计,这些决策体现了对用户体验和跨平台一致性的重视。

2026-04-13

#22712 [NPU] update GLM5 running guide

原始 PR · 作者 zhsurpass · 合并时间 2026-04-13 22:53

文档 重要性 2.37 洞察度 3.00

更新 NPU 上 GLM5 的运行指南

该 PR 为简单的文档更新,无需深入审查。值得关注的是使用固定版本而非 main 分支的做法,可提升环境可复现性。

参与讨论