Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-23

#26126 [RL] [Spec v2] Use stop-aware seqlen for returned topk metadata

原始 PR · 作者 yueming-yuan · 合并时间 2026-05-23 09:13

缺陷修复重要性 6.04 洞察度 4.00

修复 speculative decoding 下 routed topk 元数据越界问题

值得合并，修复逻辑清晰且已有生产验证（upstream 自 sglang-miles）。

bugfixschedulingspeculative-decoding

#26017 Skip init_mha_chunk_metadata in trtllm_mla when not needed

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-23 07:34

性能优化重要性 5.79 洞察度 3.00

跳过 trtllm_mla 中不必要的 init_mha_chunk_metadata

该 PR 是一次轻量级性能优化，实现清晰且安全，建议精读理解 trtllm_mla 的 fallback 机制；代码风格和逻辑可直接复用于其他类似的元数据初始化方法。

performancerefactorscheduling

#23351 Support piecewise CUDA graph with NSA

原始 PR · 作者 nvjullin · 合并时间 2026-05-23 05:39

功能重要性 8.85 洞察度 6.00

为 GLM-5/DSV3.2 添加 NSA 注意力 PCG 支持

值得精读。核心设计（`register_split_op` + `register_custom_op` 拆分 NSA 索引器）是 PCG 支持 DSA 模型的关键模式，可以推广到其他不符合 PCG 约束的算子。同时关注后续 PR #26718 对 guard 的改动，以及是否有更通用的 NSA indexer 抽象。

featuredeepseekattention

#25189 [perf] DeepSeekV3: drop redundant FP32 upcasts in trtllm MoE paths

原始 PR · 作者 maocheng23 · 合并时间 2026-05-23 05:23

性能优化重要性 6.06 洞察度 6.00

移除 DeepSeekV3 trtllm MoE 冗余 FP32 转换

建议阅读 PR body 中的设计分析，了解作者为何分阶段清理 MoE 路径。该 PR 展示了如何基于版本依赖安全移除冗余操作，并为后续重构留下明确标记，值得 ML 工程团队借鉴。合并者 Qiaolin-Yu 和 reviewer b8zhong 均已批准。

deepseekperformancerefactor

#25110 [Fix]: BCG support for RadixLinearAttention (Qwen3.5 / linear-attn hybrid models)

原始 PR · 作者 zminglei · 合并时间 2026-05-23 04:30

缺陷修复重要性 6.77 洞察度 5.00

修复 RadixLinearAttention BCG 支持，消除静默错误

推荐合入，该 PR 以极小的改动修复了一个严重影响模型输出正确性的 bug，且提供了充分的基准测试数据。值得精读的地方在于 `eager_on_graph` 装饰器的使用模式，这是 BCG 框架中确保某些操作不在 CUDA Graph 内被捕获的标准做法。

bugfixschedulingperformance

#26108 FutureMap: debug-assert that gather sees a stashed value

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-23 04:10

缺陷修复重要性 6.61 洞察度 6.00

FutureMap 增加 consume 前值非负断言

值得精读。该 PR 展示了在 GPU 异步执行环境中使用编译断言进行不变量检查的实践，对理解 FutureMap 的语义契约和 CI 诊断能力有帮助。

bugfixschedulingperformance

#25844 feat(kv-events): expose structured KV-event publisher block on /server_info

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-23 01:59

功能重要性 7.85 洞察度 6.00

在 /server_info 暴露 KV-event publisher 描述符，支持路由器自发现

值得精读。设计决策清晰：将 introspection 方法放在配置对象自身，使用懒加载避免循环依赖，安全返回 null 而非异常。review 中的绑定一致性问题提醒了跨文件契约验证的重要性。测试驱动方式（绕过 HTTP 层直接调用 handler）也值得参考。

featureobservabilityscheduling

#25098 perf: migrate Req token-id storage to array.array('q') in Scheduler

原始 PR · 作者 Jialin · 合并时间 2026-05-23 01:51

性能优化重要性 9.18 洞察度 7.00

Req token-id 存储迁移至 array.array('q') 优化长 prompt 性能

建议 PR 评审者仔细阅读，尤其是 `flatten_arrays_to_int64_tensor` 的实现和 `Req` 字段迁移的处理方式，可为类似数据类型迁移提供参考。