Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-09

#24260 Enable trtllm-gen BF16 MoE for MTP

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 18:14

功能重要性 5.95 洞察度 4.00

启用 trtllm-gen BF16 MoE 用于 MTP 草稿层

该 PR 改动简洁但有效，值得所有使用 flashinfer_trtllm BF16 后端的团队了解。重点关注 `server_args.py` 中安全逻辑删除后的回归测试结果。

featuremoespeculative-decoding

#24815 Revert "[NPU] fix profiler on npu"

原始 PR · 作者 sglang-npu-bot · 合并时间 2026-05-09 17:53

缺陷修复重要性 5.81 洞察度 2.00

回滚 NPU 分析器修复 PR#24685

该 PR 为简单回滚，无需深入审查。建议关注后续是否有重新修复 NPU profiler 的 PR，以更 robust 的方式传入 experimental_config。

npubugfixobservability

#24685 [NPU] fix profiler on npu

原始 PR · 作者 zhaozx-cn · 合并时间 2026-05-09 17:48

缺陷修复重要性 6.27 洞察度 4.00

修复 NPU 上 torch profiler 算子形状信息缺失

本 PR 是 NPU 平台 profiling 功能的关键修复，建议合并。但需确认非 NPU 平台不会因 `experimental_config=None` 而报错，并考虑后续使用字典解包的更安全模式。

npubugfixobservability

#24097 Restrict fa_skip_kv_cache to non-MLA backends

原始 PR · 作者 jasperjiaguo · 合并时间 2026-05-09 17:25

缺陷修复重要性 4.85 洞察度 4.00

修复 fa_skip_kv_cache 在 MLA 下的潜在 bug

建议合并。变更简洁明了，修复了一个潜在的正确性问题，并附有清晰的注释。不需额外测试，因为该路径目前无实际使用场景。

bugfixattentionperformance

#23590 Reland Cute-DSL FP4 dense GEMM

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 17:20

功能重要性 7.22 洞察度 5.00

重新引入 Cute-DSL FP4 GEMM 后端，优化 Blackwell 性能

值得关注其自动选择策略和基准测试增强方式；作为 kernel 后端的标准集成范例可以借鉴。对于使用 Blackwell GPU 的部署建议开启此选项。

sgl-kernelperformancefeature

#23550 [Bug Fix] GLM-5.1: drop constexpr on page_indice_batch_offset, skip offloader post_init on draft worker, support N=32 in copy_to_gpu_no_ce

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-09 15:43

缺陷修复重要性 6.21 洞察度 4.00

修复 GLM-5.1 专家卸载路径的三个阻塞问题

值得精读，特别是 Triton constexpr 取舍、offloader 在多 worker 下的状态隔离设计。可作为类似性能问题的参考。

bugfixperformancesgl-kernel

#24713 [HiCache] ci: lower est_time for test_hicache_spec_file_storage

原始 PR · 作者 alphabetc1 · 合并时间 2026-05-09 15:33

测试重要性 2.92 洞察度 3.00

降低 HiCache 测试预估时间以平衡 CI 分区

可快速合入，无需深入精读。但值得关注 `run_suite.py` 分区器如何利用 `est_time`，可为其他测试的类似优化提供参考。

hicachecitest

#24735 [Spec] Move `accept_tokens` off `EagleDraftInput`; pass via method arg

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-09 14:24

重构重要性 7.69 洞察度 5.00

将 accept_tokens 从 EagleDraftInput 移除，改为方法参数传递

值得精读，尤其是理解 speculative decode 数据流如何逐步解耦。PR 设计上分离 draft input 与 verify output 的职责，是很好的架构演进方向。

speculative-decodingrefactor

第 154 / 357 页 · 共 2850 条

上一页 1 … 152 153 154 155 156 … 357 下一页