Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#26383 [AMD][DSV4] DSV4 MTP graph + sparse triton attn optimizations

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-28 06:23

缺陷修复重要性 9.18 洞察度 6.00

修复 DSV4 MTP 在 ROCm 上的 CUDA Graph 捕获并优化注意力与融合 kernel

建议精读。该 PR 展示了如何在不破坏 CUDA 路径的前提下为 ROCm 修复关键错误并注入性能优化，其设计权衡（始终 eager 构造、fused kernel 阈值选择、三级 fallback 模式）值得学习。尤其推荐关注 `deepseek_v4_fused_mhc.py` 中的缓冲池与运行时禁用机制。

amddeepseekbugfix

#26499 [Kernel] Import flash_mla kernels from sglang kernel for deepseek v4

原始 PR · 作者 zcnrex · 合并时间 2026-05-28 05:32

重构重要性 5.03 洞察度 3.00

DeepSeek V4 切换到 sgl-kernel 内部 FlashMLA

可以快速合并。此 PR 是 sgl-kernel 整合系列的一部分，建议配合关联的 sgl-kernel 版本发布（如 PR #26421）一起部署。

refactordependenciesdeepseek

#23269 Support batch size > 1 when enable CP

原始 PR · 作者 Shunkangz · 合并时间 2026-05-28 05:11

功能重要性 8.48 洞察度 6.00

上下文并行支持 batch size > 1

值得精读，尤其 `ContextParallelMetadata` 从单序列到多序列的设计演进，以及 padding 策略的权衡。讨论中的 CPU 开销担忧和未来 Triton 替代方向值得关注。架构师应关注 DSA 路径的遗留 TODO。

featurerefactorscheduling

#22921 [NVIDIA] [GDN] Add FlashInfer prefill support for SM100+ (Blackwell)

原始 PR · 作者 kaixih · 合并时间 2026-05-28 04:58

功能重要性 7.50 洞察度 6.00

Blackwell SM100+ 添加 FlashInfer GDN prefill 支持

该 PR 是 Blackwell 推理栈的重要补齐，设计决策清晰（状态预分配、clamp 保护、版本校验）。值得关注： - SM100 / SM90 两条路径的差异（state pool vs gather/scatter）及初始化分支逻辑； - 如何通过预分配 bf16 output_state 消除类型转换开销； - 对上游 FlashInfer 版本的依赖管理。推荐阅读核心内核文件 `gdn_flashinfer.py` 的 `extend` 方法，以理解 FlashInfer 集成模式。

featureperformancetest

#26421 chore: bump sglang-kernel version to 0.4.3

原始 PR · 作者 sglang-bot · 合并时间 2026-05-28 02:31

基础设施重要性 4.05 洞察度 2.00

sglang-kernel 版本从 0.4.2.post2 升级至 0.4.3

该 PR 为常规依赖升级，价值有限。无需精读，但可关注 sglang-kernel 0.4.3 的 release note 了解具体包含的修复或特性。

dependenciesinfrarun-ci

#26195 Allow custom speculative algorithm to support disaggregation

原始 PR · 作者 jasonjk-park · 合并时间 2026-05-28 00:54

功能重要性 7.28 洞察度 5.00

为自定义推测算法添加分离支持，重构 Eagle 专用逻辑

值得精读，展示了通过面向对象多态方法解耦调度逻辑的设计模式。建议尽快补充：1）空批次和 hidden states 为 None 的防御性检查；2）针对新增接口编写单元测试，覆盖 Eagle 和非 Eagle 分支的分离场景。

featurerefactorspeculative-decoding

2026-05-27

#22848 [Feature] WebSocket streaming audio input for ASR

原始 PR · 作者 SammLSH · 合并时间 2026-05-27 22:44

功能重要性 9.18 洞察度 6.00

为 ASR 添加 WebSocket 实时音频输入端点

值得精读。该 PR 展示了如何在现有架构上集成实时双向协议，对理解 OpenAI Realtime 协议实现、异步状态机设计、跨路径一致性处理（HTTP SSE vs WebSocket）有较高学习价值。建议关注 `session.py` 的状态隔离设计和 `streaming_asr.py` 的 `emitted_text` 改动。

featuretestmultimodal

#26387 Support KV events for UnifiedRadixCache

原始 PR · 作者 weireweire · 合并时间 2026-05-27 22:10

功能重要性 7.10 洞察度 5.00

为UnifiedRadixCache添加KV事件支持，提升缓存命中率

该PR值得精读，特别是需要自定义缓存策略或集成第三方路由器的开发者。事件注入的模式（通过Mixin、在关键操作点记录事件）可复用与其它缓存组件。同时展示了如何为复杂缓存结构编写高质量单元测试。

kv-cachehicachefeature

第 61 / 357 页 · 共 2850 条

上一页 1 … 59 60 61 62 63 … 357 下一页