← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-18 18:16 同步状态：空闲下次计划：2026-04-18 19:16

PR 列表

已合并 957 · 已分析 957

最近 1 天最近 3 天最近 7 天

更多筛选 · 已设定

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-18

#22169 [main] chore: add bias for base layer with lora

作者 gongyisheng · 合并时间 2026-04-18 17:07

缺陷修复重要性 5.06 洞察度 5.00

为 LoRA 基类添加 bias 属性，修复权重同步时 Qwen2 模型输出错误。

该 PR 值得精读，因为它揭示了 LoRA 包装层与权重同步机制间的微妙交互。关注 `BaseLayerWithLoRA` 如何通过属性反射确保 `named_parameters()` 完整性，这是支持动态权重更新的关键设计决策。

查看完整分析 GitHub 原始 PR lorabugfixrun-ci

#23077 [NPU] [DOC] Update npu best practice docs to match latest code

作者 amote-i · 合并时间 2026-04-18 14:17

文档重要性 4.43 洞察度 3.00

更新 Ascend NPU 最佳实践文档，同步最新模型配置和性能数据。

对于 NPU 平台用户或开发者，建议快速浏览此文档更新以了解最新配置；特别关注环境变量设置的最佳实践，以避免潜在问题。

查看完整分析 GitHub 原始 PR documentationnpu

#22869 [diffusion] feat: introduce ltx-2-two-stage device manager

作者 mickqian · 合并时间 2026-04-18 11:04

功能重要性 8.88 洞察度 6.00

引入LTX-2两阶段设备管理器，优化内存使用和LoRA切换性能。

该PR值得精读，尤其是`LTX2TwoStageDeviceManager`类的实现，展示了针对多阶段模型的内存与性能优化设计。关注其模式自动选择策略（基于GPU内存）、CPU快照机制以及review中讨论的代码安全性改进点，这些对理解高性能推理系统的设备管理有较高参考价值。

查看完整分析 GitHub 原始 PR diffusionlorafeature

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

作者 BBuf · 合并时间 2026-04-18 09:06

功能重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端，提升性能并作为稳定性后备。

该PR值得精读，尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制，它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策，以及环境变量缓存清理（cache_clear）的运用，这些对类似功能扩展有借鉴价值。

查看完整分析 GitHub 原始 PR featurediffusionquant

#23110 Clean up bench_one_batch warning and simplify norm dispatch

作者 merrymercy · 合并时间 2026-04-18 08:42

重构重要性 5.64 洞察度 3.00

清理基准测试警告并简化归一化函数分发逻辑，提升代码清晰度。

该PR值得快速浏览，重点关注归一化函数分发逻辑的简化方式，这是一种常见的代码优化模式；对于涉及设备特定逻辑（如musa）的清理，可思考是否在其他地方有类似遗留代码需要统一处理。

查看完整分析 GitHub 原始 PR sgl-kernelrun-cirefactor

#23019 refactor(moe): de-duplicate triton MoE runner path into shared helpers

作者 ch-wan · 合并时间 2026-04-18 08:05

重构重要性 8.76 洞察度 6.00

重构MoE Triton runner路径，提取共享助手以消除代码重复。

该PR值得精读，特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异（CUDA/HIP/XPU）、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。

查看完整分析 GitHub 原始 PR refactormoeperformance

支持 Prhub ♥