Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

performance 相关 PR

2026-06-07
缺陷修复 重要性 6.51 洞察度 5.00

修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题

该 PR 值得精读,以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。

性能优化 重要性 6.80 洞察度 6.00

指数搜索优化 RadixCache.match 减少逐元素比较

值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。

重构 重要性 9.08 洞察度 7.00

eager 前向路径通过 CUDA graph 缓冲注册表路由

值得精读,尤其是 extract_buffer 的 None 携带逻辑和 computed slot 暴露策略,以及如何通过参数化构建函数支持不同前向路径。提供了清晰的注释和单元测试。建议部署者评估 decode 延迟并在需要时启用 SGLANG_EAGER_INPUT_NO_COPY。

2026-06-06

#27440 [Diffusion] Avoid GPU syncs in UniPC scheduler

原始 PR · 作者 BBuf · 合并时间 2026-06-06 22:01

性能优化 重要性 6.14 洞察度 6.00

用 torch.stack 替换 torch.tensor 避免 GPU 同步

值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化 重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。

#24756 Optimize ngram decode token table update

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:13

性能优化 重要性 7.94 洞察度 6.00

新增 ngram decode 专用快速更新 kernel

值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。

#26733 Nemotron perf changes

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 13:31

性能优化 重要性 8.30 洞察度 7.00

Nemotron 模型推理性能显著提升

值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。