Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-10

#23976 Support Gemma3/4 + Eagle3

原始 PR · 作者 pyc96 · 合并时间 2026-05-10 04:34

功能 重要性 8.87 洞察度 7.00

支持 Gemma3/4 模型与 Eagle3 推测解码

该 PR 值得精读,特别是 `_shard_weight` 的实现解决了 TP 环境下 Embedding 共享的关键问题,`layers_to_capture` 的偏移设计也值得借鉴。对于需要将新模型接入 Eagle3 的开发者,可直接复用 `set_eagle3_layers_to_capture` 和 `get_embed_and_head` 等接口。建议在合并后尽快补充测试覆盖捕获路径和分片逻辑。

2026-05-09
缺陷修复 重要性 6.24 洞察度 4.00

修复 MTP 场景下 Radix Cache 越界崩溃

建议快速合并,这是一个明确的边界条件崩溃修复,改动小且逻辑清晰。值得学习的是使用缓存对象避免重复创建空 tensor 的模式,减少内存分配和 GC 压力。

缺陷修复 重要性 6.15 洞察度 4.00

修复 DeepSeek V3 Triton MoE 版本降级回归

建议合并,该 PR 修复了一个由 PyTorch/Triton 版本升级引起的隐性性能回归,改动小而精准,风险可控。合并后可考虑在相关测试中覆盖 Triton 3.6.0 环境以验证 fallback 效果。

#23965 Enable PDL for various kernels in DSV32/GLM5

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 18:42

性能优化 重要性 6.68 洞察度 6.00

多 kernel 启用 PDL 提升 DSV32/GLM5 低延迟性能

值得精读。该 PR 展示了在 Triton 和 CUDA kernel 中正确启用 Programmatic Dependent Launch 的方法,修复了 unsafe asm 的问题,可作为 sgl-kernel 中类似 kernel 的参考模板。建议关注 `is_arch_support_pdl` 的检测逻辑和 `cudaLaunchKernelEx` 的使用方式。

缺陷修复 重要性 6.02 洞察度 4.00

修复FA3+EAGLE3 topk>1时SWA页表地址翻译

建议精读。本 PR 展示了在注意力后端中处理多级 KV pool 地址空间时的常见陷阱,值得关注 `translate_loc_from_full_to_swa` 的作用和调用情境。改动简洁明了,易于理解,适合作为 backend 开发参考。建议后续添加对应的单元测试或集成测试来预防回归。

缺陷修复 重要性 5.98 洞察度 6.00

修复 hybrid-SWA 精度回归,零化填充索引并修复 dtype

建议立即合并此 PR。它修复了一个关键的精度回归,变更简洁且经过良好推理。开发者在 hybrid-SWA 模型上工作时值得仔细阅读此 PR,以理解 CUDA Graph 填充路径下索引管理的陷阱。

参与讨论