Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-10

#23976 Support Gemma3/4 + Eagle3

原始 PR · 作者 pyc96 · 合并时间 2026-05-10 04:34

功能重要性 8.87 洞察度 7.00

支持 Gemma3/4 模型与 Eagle3 推测解码

该 PR 值得精读，特别是 `_shard_weight` 的实现解决了 TP 环境下 Embedding 共享的关键问题，`layers_to_capture` 的偏移设计也值得借鉴。对于需要将新模型接入 Eagle3 的开发者，可直接复用 `set_eagle3_layers_to_capture` 和 `get_embed_and_head` 等接口。建议在合并后尽快补充测试覆盖捕获路径和分片逻辑。

featurespeculative-decodingbugfix

2026-05-09

#24779 fix UnifiedRadixCache MTP child_key index out of range

原始 PR · 作者 llc-kc · 合并时间 2026-05-09 23:52

缺陷修复重要性 6.24 洞察度 4.00

修复 MTP 场景下 Radix Cache 越界崩溃

建议快速合并，这是一个明确的边界条件崩溃修复，改动小且逻辑清晰。值得学习的是使用缓存对象避免重复创建空 tensor 的模式，减少内存分配和 GC 压力。

bugfixkv-cachehicache

#24793 [DSV4] Cherry pick missing commits from deepseek_v4 branch and enhance tests

原始 PR · 作者 Fridge003 · 合并时间 2026-05-09 19:15

功能重要性 8.27 洞察度 5.00

Cherry-pick DSV4 缺失提交并增强 per-commit 测试

值得精读此 PR，尤其是 `_drop_file_cache_after_load` 的设计模式和测试架构重构思路。对于 DSV4 部署和 RL 训练场景有直接帮助。

deepseektestbugfix

#24562 Fix performance regression on Deepseek V3 on `moe-runner-backend=triton` on SM90

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 18:49

缺陷修复重要性 6.15 洞察度 4.00

修复 DeepSeek V3 Triton MoE 版本降级回归

建议合并，该 PR 修复了一个由 PyTorch/Triton 版本升级引起的隐性性能回归，改动小而精准，风险可控。合并后可考虑在相关测试中覆盖 Triton 3.6.0 环境以验证 fallback 效果。

bugfixperformancedeepseek

#23965 Enable PDL for various kernels in DSV32/GLM5

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 18:42

性能优化重要性 6.68 洞察度 6.00

多 kernel 启用 PDL 提升 DSV32/GLM5 低延迟性能

值得精读。该 PR 展示了在 Triton 和 CUDA kernel 中正确启用 Programmatic Dependent Launch 的方法，修复了 unsafe asm 的问题，可作为 sgl-kernel 中类似 kernel 的参考模板。建议关注 `is_arch_support_pdl` 的检测逻辑和 `cudaLaunchKernelEx` 的使用方式。

performancequantsgl-kernel

#24617 fix(fa3): translate page table to SWA loc in EAGLE3 topk>1 spec metadata

原始 PR · 作者 alphabetc1 · 合并时间 2026-05-09 18:22

缺陷修复重要性 6.02 洞察度 4.00

修复FA3+EAGLE3 topk>1时SWA页表地址翻译

建议精读。本 PR 展示了在注意力后端中处理多级 KV pool 地址空间时的常见陷阱，值得关注 `translate_loc_from_full_to_swa` 的作用和调用情境。改动简洁明了，易于理解，适合作为 backend 开发参考。建议后续添加对应的单元测试或集成测试来预防回归。

bugfixspeculative-decodingkv-cache

#24743 fix(cuda_graph): zero out_cache_loc_swa on pad and use int32 (hybrid-SWA accuracy fix)

原始 PR · 作者 JoyFuture · 合并时间 2026-05-09 18:22

缺陷修复重要性 5.98 洞察度 6.00

修复 hybrid-SWA 精度回归，零化填充索引并修复 dtype

建议立即合并此 PR。它修复了一个关键的精度回归，变更简洁且经过良好推理。开发者在 hybrid-SWA 模型上工作时值得仔细阅读此 PR，以理解 CUDA Graph 填充路径下索引管理的陷阱。

bugfixkv-cachejit-kernel

#24802 slash command rerun UX: emoji semantics + result writeback

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-09 18:19

功能重要性 5.70 洞察度 5.00

改进 CI 斜杠命令 emoji 语义并实现结果回写

值得精读，尤其是幂等设计和并发控制。建议后续类似的 CI 指令可用此模式。

cifeatureinfra

第 153 / 357 页 · 共 2850 条

上一页 1 … 151 152 153 154 155 … 357 下一页