Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#19135 qwen3 vl skip layer id for pp

原始 PR · 作者 narutolhy · 合并时间 2026-04-03 10:51

缺陷修复重要性 5.00 洞察度 4.00

修复 Qwen3-VL MoE 模型在启用流水线并行时因加载非本地层权重而崩溃的问题。

该 PR 值得精读，特别是对于从事多模态模型或流水线并行开发的工程师。关注点包括：1) 权重加载中如何优雅处理流水线并行的层分布；2) 视觉语言模型中语言模型与视觉编码器权重的区分逻辑；3) 与非 MoE 版本（qwen3_vl.py）和纯语言 MoE 版本（qwen3_moe.py）的一致性设计。

bugfixmultimodalrun-ci

#19652 [Feature] NVFP4 Marlin fallback for non-Blackwell GPUs (SM75+)

原始 PR · 作者 Godmook · 合并时间 2026-04-03 10:48

功能重要性 7.00 洞察度 6.00

为 NVFP4 量化模型引入 Marlin fallback 支持，使非 Blackwell GPU（SM75+）能运行 FP4 模型。

建议精读 `marlin_utils_fp4.py` 和内核修复部分，关注设计决策如自动 GPU 检测和条件隔离。注意 review 中提到的测试覆盖率和 PCG 问题，未来可能需补充数值验证和 tracing 支持。

featurequantjit-kernel

#20208 Remove maxItems=1 restriction when tool_choice is specified

原始 PR · 作者 kpham-sgl · 合并时间 2026-04-03 10:35

缺陷修复重要性 6.00 洞察度 5.00

修复函数调用 JSON 模式中 maxItems=1 限制导致的模型停滞问题。

该 PR 值得精读，特别是设计决策如何通过 parallel_tool_calls 参数平衡灵活性与控制，以及 JSON 模式生成的修改方式，展示了 API 兼容性与功能修复的结合。

bugfixrun-citest

#21633 [Diffusion][NPU] Add support for MOVA

原始 PR · 作者 LLThomas · 合并时间 2026-04-03 10:33

功能重要性 6.00 洞察度 6.00

为MOVA扩散模型添加NPU硬件支持，优化RoPE和内存格式兼容性。

建议涉及NPU开发或Diffusion模型的工程师精读此PR，关注平台检测设计（如current_platform.is_npu）、RoPE优化策略（torch_npu.npu_rotary_mul集成）以及如何处理硬件不兼容性（如channels_last_3d和complex128临时修复）。这些设计决策值得学习，以应对类似跨平台支持场景。

npudiffusionfeature

#21903 [CI] Add timeouts to Slack upload urlopen and WebClient

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-03 10:30

基础设施重要性 3.00 洞察度 2.00

为扩散模型CI中的Slack上传添加超时设置，防止网络问题导致CI卡死。

该PR实现简单直接，适合快速浏览了解CI稳定性改进。值得关注的是超时值的选取逻辑（30秒用于下载，60秒用于API调用）以及这种配置如何平衡可靠性与响应速度。

run-cidiffusion

#21892 Skip broken AutoModel mapping entries when resolving Llava submodules

原始 PR · 作者 BBuf · 合并时间 2026-04-03 09:04

缺陷修复重要性 5.00 洞察度 4.00

跳过损坏的AutoModel映射条目以修复Llava多模态模型加载失败。

建议工程师精读此PR，特别关注异常处理的设计权衡（如限制workaround范围）和测试策略（避免脆弱实现）。对于处理外部依赖损坏条目的类似问题，可借鉴此处的条件捕获和日志记录模式。

bugfixrun-cimultimodal

#21978 [CI] Remove stale Ascend suite entries from test/srt/run_suite.py

原始 PR · 作者 Fridge003 · 合并时间 2026-04-03 07:47

基础设施重要性 3.00 洞察度 2.00

清理CI测试套件中过时的Ascend NPU条目，修复XPU CI检查失败。

该PR变更简单直接，适合快速浏览以了解CI套件清理模式。值得关注的是如何通过__not_in_ci__处理遗留文件，以及sanity check机制对文件存在性的依赖。

run-cinpu

#19163 [Feature] Stronger transformers modeling backend with TP, PP, MoE, VLMs, and torch compile

原始 PR · 作者 adarshxs · 合并时间 2026-04-03 07:02

功能重要性 7.00 洞察度 6.00

添加基于Transformers的通用建模后端，支持TP、PP、MoE、多模态和torch.compile，扩展SGLang模型兼容性。

建议工程师精读此PR以理解Mixin架构设计和模型加载的通用化方法；重点关注TransformersBase的模块替换逻辑、AutoWeightsLoader的权重分发机制以及多模态处理器的自适应策略；同时注意review中提出的风险点，如测试覆盖和错误处理，在类似开发中加以改进。

featuremultimodalperformance

第 305 / 357 页 · 共 2850 条

上一页 1 … 303 304 305 306 307 … 357 下一页