Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-26

#25964 [EPD] Cross-request batching for image/audio encoder

原始 PR · 作者 Abatom · 合并时间 2026-05-26 15:39

功能重要性 7.69 洞察度 6.00

EPD 编码器跨请求批处理图像/音频

建议精读 encode_server.py 中的 EncoderScheduler 设计，特别是积累窗口机制和预验证逻辑。值得关注的决策包括 tile 扩展适配、音频采样率修复、环境变量统一声明。如果需要扩展批处理到视频或其他模态，可参考此设计模式。

featureperformancescheduling

#26200 [GDN] Support SM100 CuTeDSL GDN Prefill Kernel

原始 PR · 作者 yuan-luo · 合并时间 2026-05-26 15:38

功能重要性 9.18 洞察度 6.00

为Blackwell SM100添加CuTeDSL GDN预填充内核

建议Blackwell工作负载的用户启用 `--linear-attn-prefill-backend cutedsl` 以获取性能收益。开发者应重点关注 `gdn_cutedsl.py` 中的集成模式以及 `GDNKernelDispatcher` 的回退机制设计，这为后续添加其他后端提供了参考模式。同时，建议为 `extend()` 添加更多单元测试以增强鲁棒性。

featureperformanceblackwell

#23476 fix(tool_call): normalize non-standard JSON Schema types in tool params

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-26 15:24

缺陷修复重要性 8.06 洞察度 7.00

规范化工具参数中非标准 JSON Schema 类型映射

该 PR 设计清晰，测试完备，建议合并。后续可考虑： 1. 增加最大深度限制以防御堆栈溢出。 2. 将 `_PREFIX_BOUNDARY_CHARS` 与前缀规则文档化，供用户参考。 3. 在 CHANGELOG 中标注此兼容行为。

bugfixconsistencytest

#19493 [Perf][Moe]improve cutlass_moe_fp4 performance by using apply_router_weight_on_i…

原始 PR · 作者 chengchao23 · 合并时间 2026-05-26 15:07

性能优化重要性 5.97 洞察度 6.00

融合 kernel 优化 MoE FP4 后处理性能

该 PR 是典型的性能优化案例，展示了如何通过 kernel 融合减少 MoE 后处理开销。推荐精读 `cutlass_moe.py` 中的融合策略，以及对应的 `apply_shuffle_mul_sum` 内核实现。对于正在优化 MoE 推理的工程师有直接参考价值。

performancemoequant

#26208 [AMD] Dsv4/pr2 compressor opt

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-26 14:54

性能优化重要性 9.36 洞察度 7.00

AMD DSV4 压缩与注意力 Triton 内核融合优化

建议精读 fused kernel 的设计和 autotune 策略，尤其 `_should_use_fused_dual_scope` 的决策逻辑和基于 workload size 的分级 dispatch。对于涉及 online softmax 的 kernel，review 中的 NaN 修复模式值得推广。

amddeepseekperformance

#25045 Fix FA3 cross-attention batched-decode for per-request varlen encoder

原始 PR · 作者 zsj555 · 合并时间 2026-05-26 14:26

缺陷修复重要性 6.35 洞察度 5.00

修复 FA3 跨注意力对变长编码器的批处理支持

建议精读该 PR，尤其是 `init_forward_metadata` 中 fancy indexing 的构造方式。这是一个典型的注意力元数据构建 bug 修复，设计简洁，且验证充分，对于理解 SGLang 中跨注意力的批处理实现有很好的参考价值。

bugfixkv-cachescheduling

#26344 [Doc] Update pip install commands for Cuda12

原始 PR · 作者 Fridge003 · 合并时间 2026-05-26 13:28

文档重要性 2.83 洞察度 1.00

更新 CUDA 12 安装命令到文档

可直接合并，文档变更轻量且无副作用。建议后续维护者关注 cu129 索引 URL 是否正确指向 CUDA 12 包。

documentation

#26112 [Kernel] Reuse WNA16 Marlin MoE workspace

原始 PR · 作者 mickqian · 合并时间 2026-05-26 13:19

性能优化重要性 5.79 洞察度 5.00

WNA16 MoE Marlin 工作空间复用优化

该 PR 是一个小而有效的性能优化，值得合并。建议关注 workspace 大小参数是否应可配置，以及是否可推广到其他 MoE 后端。