修复 Req token-id array 拼接错误
值得精读。特别是讨论中关于类型归一化策略的权衡(在 Req 内部转换 vs 调用者转换),以及 array 在序列操作中的性能优势。此外,`custom_logit_processor` 的优化展示了如何避免不必要的数据复制。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 Req token-id array 拼接错误
值得精读。特别是讨论中关于类型归一化策略的权衡(在 Req 内部转换 vs 调用者转换),以及 array 在序列操作中的性能优势。此外,`custom_logit_processor` 的优化展示了如何避免不必要的数据复制。
在 KV 写入路径添加越界探测
值得合并。这是一个低风险、高 ROI 的调试增强,在 spec 测试中已证明有效。建议在更广泛的 CI 中逐步启用 `SGLANG_ENABLE_ASYNC_ASSERT`,以最大化收益。
修复 SWA 准入预算少算 HiCache load-back 消耗
建议精读此 PR,尤其是 _swa_budget_for_req 的预算逻辑和 MatchResult 拆分的设计。layering violation 可作为后续重构的引导。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-07 10:46
提取 Mamba 插槽分配器到 allocator/ 子包
值得精读。展示了如何将内联分配逻辑提取为独立组件,以及重构中的设计选择(不继承 KV 分配器基类)。对于理解 SGLang 内存管理架构有帮助。
修复 FP8 GEMM 在 fp16 模型上的性能与精度问题
建议精读。该 PR 展示了如何通过前移运行时兼容性检查来避免代价高昂的运行时回退,设计模式清晰。值得关注的是 `should_deepgemm_weight_requant_ue8m0` 函数的设计——将兼容性逻辑集中化、参数化,便于后续扩展其他 GEMM 后端。另外 PR body 中提供的性能对比和精度测试数据非常详尽,可作为后续类似问题定位的参考。
Cosmos3 去噪循环集成 profiler 步进
值得快速合并的针对性修复,改动简洁且语义清晰。如果想了解 SGLang diffusion 模型的 profiling 机制,可以阅读 `SGLDiffusionProfiler` 的实现。
原始 PR · 作者 yueming-yuan · 合并时间 2026-06-07 09:24
修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题
该 PR 值得精读,以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
参与讨论