Prhub

SGLang 第17周周报(04/20 - 04/26):DeepSeek-V4 部署验证与 JIT 内核重构并行推进

本周共合并 235 个 PR,DeepSeek-V4 部署文档完成大量配方验证,JIT 激活内核替换落地,NPU/CPU 量化支持取得突破,扩散模型新增 LTX2.3 HQ 流水线、LoRA 和 OTel 追踪,同时多项性能优化和 bug 修复持续交付。

仓库:sgl-project/sglang 周期:2026-04-20 至 2026-04-26 来源 PR:235 · 重点 PR:24 自动生成 · 生成于 2026-04-27 01:04

本周亮点

  • DeepSeek-V4 部署方案集中验证:本周 H200/B200/GB200/GB300 多个平台和配置(CP、PD-disagg)的配方被标记为已验证,大量交互式文档和重定向同步至主仓库 docs_new/,形成统一文档入口。
  • JIT 内核重构迈出关键一步:DarkSharpness 重新引入 JIT activation kernel,修复 num_token=0 边界问题,替换 sgl-kernel 静态版本;ch-wan 废弃 Triton act_and_mul 并合并 filter_expert 至 JIT CUDA 核,提升 MoE 执行效率。
  • NPU 量化功能补全:TheKonka 实现 Ascend NPU 上的 GGUF 量化支持(含 MoE),jianan-gu 为 CPU 添加 GPTQ/AWQ 4-bit 量化与 AMX 集成,跨平台部署能力显著增强。
  • 扩散模型创新密集:LTX2.3 获得高质量两阶段流水线、LoRA 支持、多条件图像功能;OTel 追踪首次接入多模态生成子系统;CPU 平台推理基础框架就绪。
  • 性能优化多点开花:KDA 融合 gate+cumsum 内核获 2.2-2.65 倍加速;PrefillDelayer 获准在 disaggregated-prefill 模式使用;自适应推测解码支持 EAGLE 动态步数调整;Multi-Item Scoring 通过预计算分隔符索引消除 GPU 扫描。

风险观察

  • 核心路径变更风险高:本周 39 个 PR 标记为“核心路径变更”,其中 JIT activation、Breakable Cuda Graph、自适应推测解码等涉及调度器与内存管理核心逻辑,需密切关注回归测试结果。
  • 测试覆盖不足持续:26 个 PR 缺少测试覆盖,尤其 NPU/CPU 新功能、AMD 平台兼容性修复、以及 HiCache 相关修改缺乏单元测试,建议下一周期补强。
  • AMD GPU 兼容性风险:Hunyan V3 在 MI300X/MI355X 上 CUDA Graph 模式崩溃(需 --disable-cuda-graph),另有 ROCm 7.0 bpreshuffle 回退路径、Qwen3.5 基数缓存冲突等问题需持续跟踪。
  • LoRA 合并路径存在潜在缺陷:LTX2.3 LoRA 支持 PR 中 review 指出的 non-tensor 权重合并和 DTensor shard 错误尚未确认修复,建议验证。
  • 新实验特性稳定性待观察:Breakable Cuda Graph(BCG)为实验性功能,依赖 mempool 引用计数管理弱引用,初期版本可能存在未发现的内存问题。

完整周报

执行摘要

本周(04/20-04/26)SGLang 仓库合并了 235 个 PR,其中高亮 PR 24 个,平均重要性 5.72。变化集中在 DeepSeek-V4 部署文档验证JIT 内核重构跨平台量化支持(NPU GGUF、CPU GPTQ/AWQ)以及 扩散模型能力增强(LTX2.3 HQ 流水线、LoRA、OTel 追踪)。性能优化方面,KDA 融合内核、自适应推测解码、Multi-Item Scoring 预计算索引等改进带来显著吞吐提升。CI 基础设施持续加固,修复了多个构建与测试流程问题。

本周重点变化

DeepSeek-V4 部署配方全面验证

本周共有超过 20 个文档 PR 集中处理 DeepSeek-V4 的部署指南,覆盖 H200、B200、GB200、GB300 等主流平台,CP(上下文并行)和 PD-disagg(预填充-解码分离)两种配置均获验证。交互式命令生成器(deployment.jsx)与 Mintlify 文档站同步迁移至主仓库 docs_new/,形成统一入口。同时新增 GB200、B300 平台支持及 H200 Pro 的 mem-fraction-static 调优参数。这些文档工作降低了用户的部署门槛,但部分生成命令未经全部平台实测,需留意注释与代码的一致性。

JIT 内核替换完成关键模块

DarkSharpness 的 Reland JIT activation(#22094)是本周最核心的内核重构:重新实现了 JIT 编译的 silu_and_mul, gelu_and_mul, gelu_tanh_and_mul,替代了此前从 sgl-kernel 静态导入的版本。修复了导致回滚的 num_token=0 边界问题,并通过条件编译(_fast_math_flags)在 Blackwell 和 ROCm 上关闭快速数学以保持精度。Ch-wan 的 Deprecate act_and_mul_triton(#23707)进一步将 MoE 的 filter_expert 逻辑内联进 JIT CUDA 激活核,淘汰了冗余的 Triton 路径,同时为 AMD/XPU 保留回退机制。这两项重构共同提升了激活层的统一性和 MoE 的执行效率。

量化与多平台支持取得突破

  • NPU GGUF 量化(#17883):TheKonka 贡献了 Ascend NPU 上的 GGUF 量化全流程,包括线性、MoE、Embedding 三层的专用方法,采用预去量化策略,在模型加载时将量化权重重构为全精度。仅验证了两种模型,且 GPU GGUF MoE 的原有错误需单独修复。
  • CPU GPTQ/AWQ 4-bit(#22685):jianan-gu 为 CPU 平台添加了 GPTQ 与 AWQ 4-bit 量化,通过 AMX 格式重打包调用 Intel AMX 后端。GPTQ v2 格式的偏移问题已在前端添加检查,但 review 中未展示具体修改,需后续验证。
  • Diffusion CPU 支持(#20816):首次为 SGLang Diffusion 引入纯 CPU 推理路径,包含 PyTorch 原生回退函数和 CPUWorker 类,支持多个扩散模型在 Intel Xeon 上运行。

扩散模型创新密集

LTX2.3 模型是本周扩散子系统的焦点:

  • 高质量流水线(#23366):mickqian 加入了两阶段生成流水线,包含 res2s 采样器(RK2 中点 SDE)、分辨率感知 sigma 调度和蒸馏 LoRA 强度控制,对齐官方 HQ 输出(PSNR 20.71 dB)。
  • LoRA 支持(#23649):为 LTX2.3 添加了 LoRA 适配器权重合并、多条件图像(首/尾帧)编码、低显存模式优化。但 review 指出两个正确性风险(non-tensor 合并、DTensor shard 错误)未确认修复。
  • OTel 追踪(#21254):jh-nv 实现了多模态生成子系统的端到端 OpenTelemetry 追踪,覆盖跨分解角色的追踪上下文传播与进程内轻量级 OTLP 收集器,对生产调试有重要价值。

性能优化多点开花

  • KDA 融合内核(#23038):将 gate 激活与 chunk-local cumulative sum 融合为单个 Triton 内核,减少 50% 内存流量,端到端吞吐提升 6-11%。
  • 自适应推测解码(#21599):通过 EMA 跟踪接受长度动态调整 speculative steps,在 EAGLE topk=1 场景下零开销切换态。CUDA 图同步风险仍待验证。
  • Multi-Item Scoring 预计算索引(#22544):在 tokenization 阶段计算分隔符位置,消除 GPU 扫描,吞吐提升约 4.5%。
  • DRAM 通信消除:多个 PR 优化注意力层 DtoD 拷贝(#21985)、MoE all-reduce 守卫(#23731/23732/23734)、以及 PD streaming 批处理通知(#22658)。

模块与主题趋势

模块/主题 趋势 说明
DeepSeek-V4 ⬆️ 热度极高 文档验证占主导,部署配方覆盖多平台,但仍需关注基础模型加载环境变量和部分平台未验证的配置。
JIT 内核 ⬆️ 重心转移 从 activation 扩展到 grouped_topk、rmsnorm_hf,JIT 化进程加快,但 AMD CI 覆盖和精度性能力仍需平衡。
NPU/CPU ⬆️ 能力补齐 GGUF 量化、扩散模型 CPU 推理、Intel XPU 流水线等新功能密集落地,但测试覆盖明显不足。
MoE ⚠️ 问题集中 double-reduce bug 修复(Qwen3、DeepSeek 等)和 LoRA 内存访问修复并行,同时新增 LFM2 调优配置,稳定性在改善。
性能优化 ➡️ 持续 融合内核、自适应调度、通信消减等多元优化,平均收益明确,但部分实验性特性(如 BCG)需观望。
CI 基础设施 ⬆️ 加固 Docker 发布工作流重用、路径过滤修复、测试分区、重试机制等,工程效能持续提升。

风险观察

  1. 核心路径变更密集(39 个 PR):调度器、内存池、CUDA 图捕获等高敏感区域同时修改,需确保组合测试覆盖。
  2. 测试覆盖缺口:26 个 PR 缺少测试覆盖,尤其 NPU/CPU 新功能和 HiCache 相关修改,建议下一周期补强。
  3. AMD 平台兼容性:Hunyan V3 的 CUDA Graph 崩溃、ROCm 7.0 bpreshuffle 回退、Qwen3.5 基数缓存冲突等问题仍需 AMD 团队持续投入。
  4. LoRA 合并缺陷:LTX2.3 LoRA PR 中两个 review 问题未确认修复,若在生产环境使用可能引发数值错误。
  5. 实验特性稳定性:Breakable Cuda Graph(BCG)依赖 mempool 引用计数,初期版本可能存在隐式内存问题。自适应推测解码的 CUDA 图同步风险也需关注。

重点 PR 速览

  • #23707 [MoE] Deprecate act_and_mul_triton:ch-wan 废弃 Triton 激活核,将 filter_expert 融合进 JIT CUDA,提升 MoE 计算效率。设计清晰,但 AMD CI 覆盖缺失。
  • #17883 [NPU] GGUF 量化:TheKonka 为 Ascend NPU 新增 GGUF 量化全流程,采用预去量化策略,是 NPU 推理的重要能力补全。
  • #22094 JIT activation Reland:DarkSharpness 重新引入 JIT 激活内核,修复 num_token=0 边界问题,是激活层 JIT 化的里程碑。
  • #23568 Parakeet nemotron encoder:yhyang201 为 Nemotron-Nano-VL 添加音频编码器和动态分辨率支持,拓展了多模态能力。
  • #21254 OTel Tracing for DiffGenerator:jh-nv 实现扩散子系统 OTel 追踪,提供跨角色追踪上下文传播,对生产监控至关重要。
  • #23038 KDA 融合 gate+cumsum:yuan-luo 融合 KDA 门控和累计和内核,提速 2.2-2.65 倍,是线性注意力优化的优秀案例。
  • #21599 自适应推测解码:alphabetc1 实现 EMA 驱动动态步数调整,为 EAGLE 场景带来吞吐优化,但 CUDA 图同步风险待解。
  • #22931 JIT rmsnorm_hf 内核:Jiminator 添加符合 HF 语义的 RMSNorm 内核,修复量化下 MMLU 精度回归,同时保持性能。
  • #22685 CPU GPTQ/AWQ 量化:jianan-gu 为 CPU 添加 4-bit 量化,扩展了非 GPU 部署能力,GPTQ v2 兼容性需后续跟进。
  • #23366 LTX2.3 HQ Pipeline:mickqian 实现高质量两阶段流水线,对齐官方输出,是扩散模型质量提升的代表。

后续建议

  1. 补强测试覆盖:为 NPU/CPU 新功能、HiCache 变更及实验特性(BCG、自适应推测)补充单元测试和集成测试,防止回归。
  2. 推进 AMD 兼容性修复:优先解决 Hunyan V3 CUDA Graph 崩溃和 LoRA 合并缺陷,确保 AMD 平台开箱即用。
  3. 统一 JIT 内核调度:随着 activation、rmsnorm、topk 等内核 JIT 化,建议规划统一的内核注册和选择策略,减少条件分支。
  4. 监控 DeepSeek-V4 文档质量:验证指南中的配置参数与最新代码一致,尤其是 SGLANG_FIX_DSV4_BASE_MODEL_LOAD 等环境变量的说明。
  5. 扩散模块稳定性加固:LTX2.3 HQ 流水线和 LoRA 支持已合并,但 review 指出的风险未解决,应跟进修复。

参与讨论