← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-19 00:48 同步状态：空闲下次计划：2026-04-19 01:48

PR 列表

已合并 960 · 已分析 960

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#22836 [Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init

作者 merrymercy · 合并时间 2026-04-16 05:04

缺陷修复重要性 7.14 洞察度 5.00

修复Eagle3/DFLASH推测解码在CUDA图捕获时辅助隐藏状态未启用的问题。

该PR值得精读，特别是对于涉及CUDA图捕获和推测解码的开发者。关注点包括：初始化顺序的重要性、配置集中化的设计决策、以及如何避免重复调用导致的参数不一致。

查看完整分析 GitHub 原始 PR bugfixconsistencyrun-ci

#22386 [lora] Speedup triton backend `sgemm` calls with better grid

作者 klshuster · 合并时间 2026-04-16 04:47

性能优化重要性 8.22 洞察度 6.00

优化多LoRA解码Triton sgemm内核网格调度，通过适配器排序减少GPU块启动数。

该PR值得精读，重点关注内核中`_resolve_token_positions`的设计和排序实现，以及性能权衡；建议结合基准测试评估实际收益，并注意测试覆盖的完整性。

查看完整分析 GitHub 原始 PR loraperformancerun-ci

#22723 [Fix] Fix accuracy bug in Flashmla sparse MLA kernel

作者 Fridge003 · 合并时间 2026-04-16 04:40

缺陷修复重要性 2.93 洞察度 4.00

修复FlashMLA稀疏内核精度问题，更新外部依赖版本。

该PR值得关注，因为它展示了通过更新外部依赖修复核心内核精度问题的典型模式。虽然变更简单，但揭示了项目对第三方内核库的依赖管理策略。建议阅读时结合Issue #21291理解问题背景，并关注后续是否添加准确性验证测试。

查看完整分析 GitHub 原始 PR sgl-kernelrun-cibugfix

#22823 [Bugfix] Preserve auto-detected quant_config for GLM NextN draft model

作者 Jiminator · 合并时间 2026-04-16 04:25

缺陷修复重要性 5.16 洞察度 4.00

修复 GLM NextN 推测解码中草稿模型自动检测量化配置被丢弃的问题

该 PR 值得精读，因为它展示了在推测解码中处理量化配置不匹配的典型问题及解决方案。关注点：1) 如何平衡命令行参数与自动检测配置的优先级；2) 条件逻辑的设计如何保持向后兼容性；3) 性能数据验证修复效果。

查看完整分析 GitHub 原始 PR bugfixconsistencyrun-ci

#22858 [VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5

作者 yhyang201 · 合并时间 2026-04-16 01:14

缺陷修复重要性 7.02 洞察度 5.00

修复 Kimi-K2.5 多模态模型在 TP 并行时每个 rank 在 device 0 上重复创建 CUDA 上下文的内存浪费问题。

该 PR 值得精读，重点关注其如何通过简单的数据移动（CPU 卸载）和键名标准化解决跨进程 CUDA 上下文重复初始化的深层问题。设计决策包括：1) 优先内存优化而非微秒级数据传输开销；2) 清理未使用代码以简化维护；3) 遵循 SGL 标准键名以启用未来功能。建议结合多模态数据处理流程和 TP 通信机制理解变更。

查看完整分析 GitHub 原始 PR bugfixmultimodalperformance

2026-04-15

#22782 [HiCache]Fix CP support for hybrid model

作者 huangtingwei9988 · 合并时间 2026-04-15 23:50

功能重要性 5.36 洞察度 4.00

为混合模型（如KV+Mamba）的HiCache添加上下文并行（CP）支持。

该PR值得快速浏览，以了解HiCache如何扩展支持混合模型的上下文并行。重点关注`HybridCacheController`的参数扩展设计，以及review中关于参数来源不一致的讨论，这反映了代码库中潜在的配置管理问题。

查看完整分析 GitHub 原始 PR hicachefeatureconsistency

#21982 [PD] Add a fallback to bypass rust dep for mini_lb

作者 whybeyoung · 合并时间 2026-04-15 22:34

缺陷修复重要性 6.33 洞察度 3.00

为 mini_lb 功能添加 Rust 依赖缺失时的降级处理，避免导入失败。

该 PR 变更简单直接，适合快速浏览以了解环境兼容性处理模式。值得关注的设计决策是使用 try-except 进行可选依赖导入，这是一种常见的 Python 模块化技术。

查看完整分析 GitHub 原始 PR model-gatewaybugfixrun-ci

#22772 [codex] Update modelopt quantization docs and CI coverage

作者 BBuf · 合并时间 2026-04-15 21:30

文档重要性 5.48 洞察度 4.00

更新 ModelOpt 量化文档并扩展 B200 GPU 上的 CI 测试覆盖。

建议快速浏览文档更新部分以了解量化模型的最新支持；重点关注 `_make_modelopt_ci_case` 函数的设计，它展示了如何标准化创建量化测试用例；检查测试文件中的死引用问题是否已解决。

查看完整分析 GitHub 原始 PR documentationquantrun-ci

第 13 / 120 页 · 共 960 条

上一页 1 … 11 12 13 14 15 … 120 下一页

支持 Prhub ♥