Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#22897 streaming session: trim spec v2 overshoot in cache_finished_req

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-16 05:15

缺陷修复重要性 7.20 洞察度 6.00

修复流式会话中推测解码超限导致KV缓存错误的bug。

值得精读，特别是`_trim_overshoot`和`_free_kv_aligned`的设计，展示了如何处理页面对齐释放和状态修剪，对理解流式会话缓存管理有参考价值。

bugfixconsistencykv-cache

#22859 ci: add modal slurm log analyzer

原始 PR · 作者 ishandhanani · 合并时间 2026-04-16 05:10

基础设施重要性 6.12 洞察度 5.00

添加基于Modal的Slurm日志分析工具，自动化CI失败调试。

值得精读，展示了如何将AI工具集成到CI/CD流水线中，特别是安全处理和错误恢复的设计决策，可作为基础设施自动化的参考案例。

run-cidocumentation

#22836 [Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init

原始 PR · 作者 merrymercy · 合并时间 2026-04-16 05:04

缺陷修复重要性 7.14 洞察度 5.00

修复Eagle3/DFLASH推测解码在CUDA图捕获时辅助隐藏状态未启用的问题。

该PR值得精读，特别是对于涉及CUDA图捕获和推测解码的开发者。关注点包括：初始化顺序的重要性、配置集中化的设计决策、以及如何避免重复调用导致的参数不一致。

bugfixconsistencyrun-ci

#22386 [lora] Speedup triton backend `sgemm` calls with better grid

原始 PR · 作者 klshuster · 合并时间 2026-04-16 04:47

性能优化重要性 8.22 洞察度 6.00

优化多LoRA解码Triton sgemm内核网格调度，通过适配器排序减少GPU块启动数。

该PR值得精读，重点关注内核中`_resolve_token_positions`的设计和排序实现，以及性能权衡；建议结合基准测试评估实际收益，并注意测试覆盖的完整性。

loraperformancerun-ci

#22723 [Fix] Fix accuracy bug in Flashmla sparse MLA kernel

原始 PR · 作者 Fridge003 · 合并时间 2026-04-16 04:40

缺陷修复重要性 2.93 洞察度 4.00

修复FlashMLA稀疏内核精度问题，更新外部依赖版本。

该PR值得关注，因为它展示了通过更新外部依赖修复核心内核精度问题的典型模式。虽然变更简单，但揭示了项目对第三方内核库的依赖管理策略。建议阅读时结合Issue #21291理解问题背景，并关注后续是否添加准确性验证测试。

sgl-kernelrun-cibugfix

#22823 [Bugfix] Preserve auto-detected quant_config for GLM NextN draft model

原始 PR · 作者 Jiminator · 合并时间 2026-04-16 04:25

缺陷修复重要性 5.16 洞察度 4.00

修复 GLM NextN 推测解码中草稿模型自动检测量化配置被丢弃的问题

该 PR 值得精读，因为它展示了在推测解码中处理量化配置不匹配的典型问题及解决方案。关注点：1) 如何平衡命令行参数与自动检测配置的优先级；2) 条件逻辑的设计如何保持向后兼容性；3) 性能数据验证修复效果。

bugfixconsistencyrun-ci

#22858 [VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5

原始 PR · 作者 yhyang201 · 合并时间 2026-04-16 01:14

缺陷修复重要性 7.02 洞察度 5.00

修复 Kimi-K2.5 多模态模型在 TP 并行时每个 rank 在 device 0 上重复创建 CUDA 上下文的内存浪费问题。

该 PR 值得精读，重点关注其如何通过简单的数据移动（CPU 卸载）和键名标准化解决跨进程 CUDA 上下文重复初始化的深层问题。设计决策包括：1) 优先内存优化而非微秒级数据传输开销；2) 清理未使用代码以简化维护；3) 遵循 SGL 标准键名以启用未来功能。建议结合多模态数据处理流程和 TP 通信机制理解变更。

bugfixmultimodalperformance

2026-04-15

#22782 [HiCache]Fix CP support for hybrid model

原始 PR · 作者 huangtingwei9988 · 合并时间 2026-04-15 23:50

功能重要性 5.36 洞察度 4.00

为混合模型（如KV+Mamba）的HiCache添加上下文并行（CP）支持。

该PR值得快速浏览，以了解HiCache如何扩展支持混合模型的上下文并行。重点关注`HybridCacheController`的参数扩展设计，以及review中关于参数来源不一致的讨论，这反映了代码库中潜在的配置管理问题。

hicachefeatureconsistency

第 249 / 357 页 · 共 2850 条

上一页 1 … 247 248 249 250 251 … 357 下一页