Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

jit-kernel 相关 PR

2026-06-06

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化 重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。

#24756 Optimize ngram decode token table update

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:13

性能优化 重要性 7.94 洞察度 6.00

新增 ngram decode 专用快速更新 kernel

值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。

#26733 Nemotron perf changes

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 13:31

性能优化 重要性 8.30 洞察度 7.00

Nemotron 模型推理性能显著提升

值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。

#27096 [diffusion] Cosmos3 fused qknorm rope

原始 PR · 作者 qimcis · 合并时间 2026-06-06 09:15

性能优化 重要性 8.76 洞察度 6.00

融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍

此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师

功能 重要性 9.00 洞察度 6.00

实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x

该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。

2026-06-05
缺陷修复 重要性 3.84 洞察度 4.00

修复 CUDA 13 下 activation.cuh JIT 编译失败

值得立即合入,特别是需要支持 CUDA 13 的用户。关注点:建议在 CI 中增加 CUDA 13 的 JIT 编译测试,防止类似问题再次发生。该 PR 展示了处理编译器版本差异模板问题的通用技巧。

功能 重要性 9.16 洞察度 7.00

支持 DeepSeek V4 HiSparse 直接 PD 主机传输,TTFT 降 7-9%

此 PR 涉及推理引擎内核、内存池、JIT 编译和远程传输多个模块的联动修改,建议所有参与 SGLang 推理引擎开发的同学精读。尤其是 `DeepSeekV4PagedHostPool` 的布局设计、`transfer_cache_dsv4_mla` 的 JIT 实现、以及 Mooncake 传输的 PP 对齐策略,具有较高的参考价值。