Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-21

#25795 Enable breakable CUDA graph for eagle

原始 PR · 作者 merrymercy · 合并时间 2026-05-21 09:02

功能重要性 7.60 洞察度 6.00

为 Eagle 投机解码启用可中断 CUDA 图

该 PR 为 Eagle 投机解码解锁了 BCG 能力，是一个有价值的功能增强。虽然改动量不大，但设计上的一些决策（如 capture_hidden_mode 的三种模式、草稿工作器的延迟初始化）值得学习。建议架构相关工程师精读 breakable_cuda_graph_runner.py 和 eagle_utils.py 的改动。需要注意的是，当前缺少测试覆盖，合并后应补充针对草稿工作器 BCG 的集成测试。

featureperformancespeculative-decoding

#25646 fix deepseek v4 hisparse

原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-21 08:28

缺陷修复重要性 5.90 洞察度 5.90

修复 HiSparse C4 压缩时 out_loc 错误

建议合并。这是一个精确且低风险的修复，解决了 HiSparse 模式下 v2 压缩器的精度问题。变更仅 11 行，逻辑清晰，有精度 benchmark 佐证。

bugfixdeepseekkv-cache

#25862 Address overlap future token map by request-pool index

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-21 07:34

缺陷修复重要性 7.37 洞察度 6.00

将 FutureMap 索引从环形缓冲区切换为请求池索引

此 PR 是消除一类重叠调度竞态的重要修复，设计思路值得借鉴——通过将临时槽位映射为具有语义的唯一标识符来避免错误。建议阅读 overlap_utils.py 的变更，理解如何通过统一索引根除整类问题。虽然缺少测试，但 CI 已全部通过，可以合入。合入后应关注重叠调度场景的稳定性。

bugfixrefactorperformance

#25294 [SMG] Support regular worker discovery alongside PD workers in IGW mode

原始 PR · 作者 Gruner-atero · 合并时间 2026-05-21 07:23

功能重要性 7.99 洞察度 5.00

支持 IGW 模式下 PD 与常规 worker 混合服务发现

该 PR 值得阅读，尤其展示了如何在不大幅新增 CLI 参数的情况下，通过组合现有参数实现功能扩展。同时代码中针对配置误用的告警机制也是良好的实践。对于需要部署混合模型路由的场景，这是一个关键的缺失填补。

model-gatewayfeatureinfra

#25892 Fix/dsv4 flash eagle dummy ima

原始 PR · 作者 mattteochen · 合并时间 2026-05-21 06:41

缺陷修复重要性 6.19 洞察度 4.00

为 dummy 权重初始化 hash topk 整数查找表

值得精读，特别是需要理解自定义初始化器与 checkpoint 加载顺序交互的场景。该 PR 展示了如何巧妙地在 dummy 模式下保障整数张量有效性的设计模式。

bugfixdeepseekmoe

#25860 add git gemm warpper for dispatch_bf16_fp32_backend

原始 PR · 作者 BJWang-ant · 合并时间 2026-05-21 06:24

重构重要性 5.70 洞察度 5.00

引入 DeepGemm wrapper 优化 BF16→FP32 GEMM 分发

建议合并。变更小、影响明确、review 后已修正。作者提供了性能数据且 CI E2E 测试通过。值得关注的是 `deep_gemm_wrapper` 的实现细节（位于 `sglang/srt/layers/`），未来可复用此模式统一其他 GEMM 分发。

deepseekjit-kernelperformance

#25741 [Scheduler] fix chunked prefill not always being full

原始 PR · 作者 hanming-lu · 合并时间 2026-05-21 06:03

缺陷修复重要性 5.93 洞察度 4.00

修复分段预填充在批次非空时错误拒绝新请求

该 PR 改动小（+16/-2），但解决了关键性能问题，值得阅读源码以理解调度预算交互。特别关注 add_one_req 中的条件演变和 rem_chunk_tokens 的作用。

schedulingbugfixperformance

#25460 [perf] prepare_prefill_qkv hook + fp8 quantize jit kernel

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-21 05:20

性能优化重要性 8.50 洞察度 6.00

为 MLA 后端引入预填充 QKV 量化 hook 和 FP8 Triton 内核

建议阅读本 PR 的设计模式（扩展点 + 条件回退），这是将来统一 MLA 后端架构的基石。重点关注 `fp8_quantize` 内核的数值精度验证，以及确认在非 Blackwell 硬件上 PDL 能正确关闭。若团队计划长期维护 FP8 预填充，建议补充针对新内核的单元测试。

quantblackwelljit-kernel

第 91 / 357 页 · 共 2850 条

上一页 1 … 89 90 91 92 93 … 357 下一页