Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 07:10 同步状态:空闲 下次计划:2026-04-19 08:10

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-14

#22122 [lora][moe] Virtual experts for LoRA MoE

作者 klshuster · 合并时间 2026-04-14 05:19

功能 重要性 7.00 洞察度 6.00

为LoRA+MoE引入虚拟专家计算,通过扁平化适配器-专家组合提升多LoRA适配器推理性能。

建议技术管理者和工程师精读 `virtual_experts.py` 内核实现和 `fused_moe_triton_kernels.py` 的修改,关注虚拟专家映射算法、split-K支持以及掩码加法设计,这些是性能优化的关键决策点。

缺陷修复 重要性 4.00 洞察度 3.00

修复GLM4.7 Flash模型因_gfx95_quant_format属性缺失导致的加载失败问题。

该PR值得快速浏览,以了解GLM模型初始化中的常见陷阱。关注点:1. _gfx95_quant_format属性的作用及其在量化格式检测中的角色。2. 模型层间属性初始化的最佳实践,避免类似缺失问题。

#22593 Update CODEOWNERS for musa/mlx

作者 yeahdongcn · 合并时间 2026-04-14 03:41

基础设施 重要性 2.00 洞察度 1.00

为MLX和MUSA硬件后端目录添加CODEOWNERS配置。

这是一个简单的配置更新,无需深入阅读。对于技术管理者,可以关注MLX和MUSA后端的所有权已明确;对于工程师,除非参与这些后端开发,否则无需特别关注。

#22653 [Docker] Remove flashinfer cache copy

作者 mmangkad · 合并时间 2026-04-14 00:48

基础设施 重要性 3.00 洞察度 2.00

移除Dockerfile中已失效的flashinfer缓存复制指令,修复CI构建失败。

此PR变更简单,无需精读。对于关注CI/Docker基础设施的工程师,可快速浏览以了解flashinfer缓存清理的后续动作。建议结合#22491理解完整上下文。

缺陷修复 重要性 4.00 洞察度 4.00

修复SGLang版本检测问题,使用describe模式确保正确显示当前checkout版本。

该PR值得精读,特别是对于关注包管理和版本检测机制的开发者。值得关注的设计决策包括:优先使用确切标签而非最新标签的版本检测策略,以及通过fallback_version处理无Git元数据环境的健壮性设计,这些决策体现了对用户体验和跨平台一致性的重视。

2026-04-13

#22712 [NPU] update glm5 running guide

作者 zhsurpass · 合并时间 2026-04-13 22:53

文档 重要性 2.37 洞察度 1.00

更新NPU文档,为GLM5模型添加最佳实践指南。

该PR内容简单直接,**无需精读**。对于NPU平台维护者或需要在昇腾NPU上部署GLM5模型的开发者,可以快速浏览文档更新部分,了解推荐的最佳实践和具体安装命令。没有复杂的设计决策需要关注。

documentation 重要性 3.00 洞察度 2.00

更新Ascend NPU文档,扩展Mamba调度策略选项并澄清分层缓存限制。

该PR为常规文档更新,无需深入精读。对于关注Ascend NPU平台或Mamba模型支持的开发者,可快速浏览以了解参数选项的扩展和限制说明。值得注意的设计决策是文档中明确标注了功能限制(如分层缓存不支持Mamba),这有助于提升用户体验和减少支持负担。

documentation 重要性 2.00 洞察度 1.00

更新Ascend NPU文档,澄清三个参数的约束和有效值。

该PR是简单的文档更新,无需精读。对于关注Ascend NPU平台或文档维护的工程师,可快速浏览以了解参数约束的澄清;对于其他开发者,可直接忽略。

参与讨论