Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#22727 Revert "Upgrade CI default CUDA version from 12.9 to 13.0"

原始 PR · 作者 Fridge003 · 合并时间 2026-04-14 05:39

基础设施重要性 5.00 洞察度 5.00

回滚CUDA 13.0升级，恢复CI默认CUDA版本为12.9以解决内核测试问题。

该PR值得基础设施团队精读，关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。

dependenciesrun-ci

#22517 Use reshape instead of contiguous().view() in TRTLLMHAAttnBackend

原始 PR · 作者 merrymercy · 合并时间 2026-04-14 05:29

重构重要性 3.00 洞察度 4.00

将TRT-LLM注意力后端中的contiguous().view()替换为reshape()，避免不必要的内存复制。

该PR变更简单直接，值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题，建议后续跟进修复。对于学习PyTorch张量操作优化的工程师，这是一个很好的小案例。

refactorperformancerun-ci

#22122 [lora][moe] Virtual experts for LoRA MoE

原始 PR · 作者 klshuster · 合并时间 2026-04-14 05:19

功能重要性 7.00 洞察度 6.00

为LoRA+MoE引入虚拟专家计算，通过扁平化适配器-专家组合提升多LoRA适配器推理性能。

建议技术管理者和工程师精读 `virtual_experts.py` 内核实现和 `fused_moe_triton_kernels.py` 的修改，关注虚拟专家映射算法、split-K支持以及掩码加法设计，这些是性能优化的关键决策点。

loramoeperformance

#22720 fix[glm4.7 flash]: properly detect `gfx95_quant_format`

原始 PR · 作者 ishandhanani · 合并时间 2026-04-14 04:10

缺陷修复重要性 4.00 洞察度 3.00

修复GLM4.7 Flash模型因_gfx95_quant_format属性缺失导致的加载失败问题。

该PR值得快速浏览，以了解GLM模型初始化中的常见陷阱。关注点：1. _gfx95_quant_format属性的作用及其在量化格式检测中的角色。2. 模型层间属性初始化的最佳实践，避免类似缺失问题。

bugfixrun-cinpu

#22593 Update CODEOWNERS for musa/mlx

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-14 03:41

基础设施重要性 2.00 洞察度 1.00

为MLX和MUSA硬件后端目录添加CODEOWNERS配置。

这是一个简单的配置更新，无需深入阅读。对于技术管理者，可以关注MLX和MUSA后端的所有权已明确；对于工程师，除非参与这些后端开发，否则无需特别关注。

macos

#22653 [Docker] Remove flashinfer cache copy

原始 PR · 作者 mmangkad · 合并时间 2026-04-14 00:48

基础设施重要性 3.00 洞察度 2.00

移除Dockerfile中已失效的flashinfer缓存复制指令，修复CI构建失败。

此PR变更简单，无需精读。对于关注CI/Docker基础设施的工程师，可快速浏览以了解flashinfer缓存清理的后续动作。建议结合#22491理解完整上下文。

run-cidependencies

#22600 fix: use describe mode for SGLang version detection

原始 PR · 作者 officialasishkumar · 合并时间 2026-04-14 00:45

缺陷修复重要性 4.00 洞察度 4.00

修复SGLang版本检测问题，使用describe模式确保正确显示当前checkout版本。

该PR值得精读，特别是对于关注包管理和版本检测机制的开发者。值得关注的设计决策包括：优先使用确切标签而非最新标签的版本检测策略，以及通过fallback_version处理无Git元数据环境的健壮性设计，这些决策体现了对用户体验和跨平台一致性的重视。

bugfixdependenciesnpu

2026-04-13

#22712 [NPU] update GLM5 running guide

原始 PR · 作者 zhsurpass · 合并时间 2026-04-13 22:53

文档重要性 2.37 洞察度 3.00

更新 NPU 上 GLM5 的运行指南

该 PR 为简单的文档更新，无需深入审查。值得关注的是使用固定版本而非 main 分支的做法，可提升环境可复现性。

documentationnpu

第 258 / 357 页 · 共 2850 条

上一页 1 … 256 257 258 259 260 … 357 下一页