Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-28
缺陷修复 重要性 9.18 洞察度 6.00

修复 DSV4 MTP 在 ROCm 上的 CUDA Graph 捕获并优化注意力与融合 kernel

建议精读。该 PR 展示了如何在不破坏 CUDA 路径的前提下为 ROCm 修复关键错误并注入性能优化,其设计权衡(始终 eager 构造、fused kernel 阈值选择、三级 fallback 模式)值得学习。尤其推荐关注 `deepseek_v4_fused_mhc.py` 中的缓冲池与运行时禁用机制。

#23269 Support batch size > 1 when enable CP

原始 PR · 作者 Shunkangz · 合并时间 2026-05-28 05:11

功能 重要性 8.48 洞察度 6.00

上下文并行支持 batch size > 1

值得精读,尤其 `ContextParallelMetadata` 从单序列到多序列的设计演进,以及 padding 策略的权衡。讨论中的 CPU 开销担忧和未来 Triton 替代方向值得关注。架构师应关注 DSA 路径的遗留 TODO。

功能 重要性 7.50 洞察度 6.00

Blackwell SM100+ 添加 FlashInfer GDN prefill 支持

该 PR 是 Blackwell 推理栈的重要补齐,设计决策清晰(状态预分配、clamp 保护、版本校验)。值得关注: - SM100 / SM90 两条路径的差异(state pool vs gather/scatter)及初始化分支逻辑; - 如何通过预分配 bf16 output_state 消除类型转换开销; - 对上游 FlashInfer 版本的依赖管理。 推荐阅读核心内核文件 `gdn_flashinfer.py` 的 `extend` 方法,以理解 FlashInfer 集成模式。

#26421 chore: bump sglang-kernel version to 0.4.3

原始 PR · 作者 sglang-bot · 合并时间 2026-05-28 02:31

基础设施 重要性 4.05 洞察度 2.00

sglang-kernel 版本从 0.4.2.post2 升级至 0.4.3

该 PR 为常规依赖升级,价值有限。无需精读,但可关注 sglang-kernel 0.4.3 的 release note 了解具体包含的修复或特性。

功能 重要性 7.28 洞察度 5.00

为自定义推测算法添加分离支持,重构 Eagle 专用逻辑

值得精读,展示了通过面向对象多态方法解耦调度逻辑的设计模式。建议尽快补充:1)空批次和 hidden states 为 None 的防御性检查;2)针对新增接口编写单元测试,覆盖 Eagle 和非 Eagle 分支的分离场景。

2026-05-27
功能 重要性 9.18 洞察度 6.00

为 ASR 添加 WebSocket 实时音频输入端点

值得精读。该 PR 展示了如何在现有架构上集成实时双向协议,对理解 OpenAI Realtime 协议实现、异步状态机设计、跨路径一致性处理(HTTP SSE vs WebSocket)有较高学习价值。建议关注 `session.py` 的状态隔离设计和 `streaming_asr.py` 的 `emitted_text` 改动。

#26387 Support KV events for UnifiedRadixCache

原始 PR · 作者 weireweire · 合并时间 2026-05-27 22:10

功能 重要性 7.10 洞察度 5.00

为UnifiedRadixCache添加KV事件支持,提升缓存命中率

该PR值得精读,特别是需要自定义缓存策略或集成第三方路由器的开发者。事件注入的模式(通过Mixin、在关键操作点记录事件)可复用与其它缓存组件。同时展示了如何为复杂缓存结构编写高质量单元测试。

参与讨论