Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-07

#26182 Fix Req array token-id concatenation

原始 PR · 作者 mmangkad · 合并时间 2026-06-07 10:59

缺陷修复重要性 6.72 洞察度 5.00

修复 Req token-id array 拼接错误

值得精读。特别是讨论中关于类型归一化策略的权衡（在 Req 内部转换 vs 调用者转换），以及 array 在序列操作中的性能优势。此外，`custom_logit_processor` 的优化展示了如何避免不必要的数据复制。

bugfixkv-cachescheduling

#27459 [core] Probe `set_kv_buffer` / `set_mla_kv_buffer` slot ids for OOB

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 10:51

缺陷修复重要性 5.54 洞察度 5.00

在 KV 写入路径添加越界探测

值得合并。这是一个低风险、高 ROI 的调试增强，在 spec 测试中已证明有效。建议在更广泛的 CI 中逐步启用 `SGLANG_ENABLE_ASYNC_ASSERT`，以最大化收益。

debuggingkv-cachespeculative-decoding

#27391 [UnifiedTree]: Fix SWA admission budget under-counts HiCache load-back consumption

原始 PR · 作者 hzh0425 · 合并时间 2026-06-07 10:47

缺陷修复重要性 7.34 洞察度 6.00

修复 SWA 准入预算少算 HiCache load-back 消耗

建议精读此 PR，尤其是 _swa_budget_for_req 的预算逻辑和 MatchResult 拆分的设计。layering violation 可作为后续重构的引导。

bugfixhicachescheduling

#27256 [mem_cache][4/N] refactor: extract MambaTokenToKVPoolAllocator into allocator/

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-07 10:46

重构重要性 8.70 洞察度 5.00

提取 Mamba 插槽分配器到 allocator/ 子包

值得精读。展示了如何将内联分配逻辑提取为独立组件，以及重构中的设计选择（不继承 KV 分配器基类）。对于理解 SGLang 内存管理架构有帮助。

refactortestkv-cache

#22300 [NVIDIA] Fix FP8 gemm performance with fp16 models (MInimax-M2.5)

原始 PR · 作者 trevor-m · 合并时间 2026-06-07 10:45

缺陷修复重要性 7.51 洞察度 7.00

修复 FP8 GEMM 在 fp16 模型上的性能与精度问题

建议精读。该 PR 展示了如何通过前移运行时兼容性检查来避免代价高昂的运行时回退，设计模式清晰。值得关注的是 `should_deepgemm_weight_requant_ue8m0` 函数的设计——将兼容性逻辑集中化、参数化，便于后续扩展其他 GEMM 后端。另外 PR body 中提供的性能对比和精度测试数据非常详尽，可作为后续类似问题定位的参考。

bugfixperformancefp8

#27439 [Diffusion] Enable Cosmos3 denoising profiling

原始 PR · 作者 BBuf · 合并时间 2026-06-07 10:32

功能重要性 6.66 洞察度 5.00

Cosmos3 去噪循环集成 profiler 步进

值得快速合并的针对性修复，改动简洁且语义清晰。如果想了解 SGLang diffusion 模型的 profiling 机制，可以阅读 `SGLDiffusionProfiler` 的实现。

diffusionperformancefeature

#27191 Fix DeepSeek V4 DP reduce scatter when use attention DP + MoE TP

原始 PR · 作者 yueming-yuan · 合并时间 2026-06-07 09:24

缺陷修复重要性 6.51 洞察度 5.00

修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题

该 PR 值得精读，以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。

bugfixdeepseekperformance

#27460 Fix MLA EAGLE draft CUDA-graph `kv_indices` under-allocation for `topk > 1`

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 07:28

缺陷修复重要性 5.68 洞察度 4.00

修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配

建议合并并安排 review。此 PR 是一个防御性修复，代码简洁清晰，风险极低，值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。

bugfixspeculative-decodingkv-cache

第 1 / 357 页 · 共 2850 条

1 2 3 4 5 … 357 下一页