执行摘要

2026年第20周（05-11至05-17），sgl-project/sglang 仓库共合并 295 个 PR，其中 24 个重点 PR 获得详细分析。本周代码库变化丰富，主要围绕 MoE 架构统一、DeepSeek V4 功能加速落地、推测解码性能优化、扩散模型内存与量化升级，以及 CI 基础设施大规模重构展开。整体表现为深度推理引擎向多模型、多平台、高性能方向持续演进。

本周重点变化

MoE 架构统一化

通过 #23760 完成 AITER MoeRunner 管道化，统一 DeepEP 与 MoriEP 的调用路径，移除废弃类。这是 MoE 后端抽象的重要里程碑，未来可方便地扩展新后端。
19290 为 DeepSeek 共享专家引入 Waterfill 负载均衡，提升 EP 吞吐约 4%，并通过 Triton 内核消除 CPU-GPU 同步。
24816 集成 FlashInfer SM90 cutlass MXFP4 MoE 后端，在 Hopper GPU 上实现 24-36% prefill 加速。

DeepSeek V4 功能井喷

多个 PR 为 DeepSeek V4 添加重要能力：HiCache 集成（#24691）将其 KV 缓存扩展到 CPU 内存；KV 压缩 V2（#24890）引入 fused norm+RoPE 内核；新增 PP/PD 分布式支持（#24704）；支持 w4a4 MegaMoE（#25052）及共享专家 TP1（#24949）。

推测解码性能提升

25333 实现 MLA chunked-prefill 融合 kernel，最高 10× 加速；#25311 优化 MLA KV 缓存写入（TMA bulk-store）最高 12× 加速；#24925 集成 tokenspeed_mla Blackwell 后端；#25001 支持 MLA 注意力的 LoRA 适配器。

扩散模型内存与量化

24593 将 layerwise offload 泛化至所有组件，用户可精细控制卸载对象；#24491 引入性能模式自动选择（auto/speed/memory），降低调优成本；#25457 新增内存感知加载排序，减少 OOM 风险；#21431 为 AMD GPU 添加在线 MXFP4/FP8 量化。

基础设施抽象

24096 引入 CudaDeviceMixin 平台抽象层，为多硬件支持铺路；#24723 将 ModelExpress 加载委托给外部包，减少 500+ 行代码；#25050 添加 model-config-parser 注册表，支持插件式配置格式；#23449 添加 Apple Metal kernel 构建支持。

CI 升级

25387 将 PR awareness 独立为 workflow 降低权限扩散；#25263 基于实时数据动态划分测试分区；#25420 规范化 CI 阶段命名；#25264 将 runner 配置中心化；#25468 发布脚本更新支持幂等。

模块与主题趋势

从标签统计看，本周热点集中在 bugfix（100）、infra（99）、refactor（71）和 performance（64），表明团队在快速迭代的同时高度重视质量与架构。deepseek（42）和 speculative-decoding（28）是模型相关的核心关注点。diffusion 相关 PR 数量可观（多位贡献者提交），且多聚焦于性能与内存优化。CI 标签 59 表明本周基础设施升级力度极大，超过一半的 PR 实际为 CI 配置或重构。

风险观察

测试覆盖不足是最大隐患：53 个 PR 被标记为“缺少测试覆盖”，许多新功能如 DSV4 HiCache、扩散性能模式自动调优等缺乏足够的测试保护，合并后可能出现回归。
核心路径变更频繁（43 项）：MoE 路径、调度器、缓存层等核心模块几乎每周都在调整，可能引入难以诊断的性能退化。
特定功能依赖性强：DSV4 HiCache 的 Sidecar 池仅支持 KV 来源（#24691 已知限制），当前若状态池路径被触发将导致崩溃；扩散模型 GPU 内存检测尚未完全可靠（#24491）。
外部依赖兼容性：本周经历 FlashInfer 升级（0.6.11）后又因 MoE 崩溃回退（#25310），依赖新版本时需更充分验证。
大规模重构的等价性验证：fzyzcjy 提交了一系列大规模重构（如 ParallelState 封装、属性清理），虽风险标注低，但涉及文件众多，可能隐藏小错误。

重点 PR 速览

#23760：MoE 统一 DeepEP/MoriEP 调用路径，通过 AiterRunnerCore 实现，是 MoE 后端抽象的典范。
#24593：扩散模型 layerwise offload 泛化至所有组件，新增组件名选择器和参数冲突自动替换。
#25333：为 DeepSeek MLA chunked-prefill 融合 cat+FP8 量化核，混合调度器自动选择变体，最高 10× 加速。
#19290：共享专家 waterfill 负载均衡，MMLU 准确率无损，端到端吞吐提升 4%，Triton 内核消除同步。
#24691：DeepSeek V4 HiCache 支持，引入 LogicalHostPool 和 sidecar 池机制，降低 GPU 显存压力。
#24096：CudaDeviceMixin 与 CudaSRTPlatform 平台抽象，为多硬件支持奠定基础，ROCm 继承 CUDA 设计。
#25050：model-config-parser 注册表，支持 HF AutoConfig 和 Mistral 原生格式，便于扩展自定义配置格式。
#25424：推测解码参数处理抽离为独立 hook 文件，并采用 AST 等价验证确保重构安全。

后续建议

优先补齐测试：对于缺少测试覆盖的重点功能（DSV4 HiCache、扩散自动调优、MLA LoRA 等），应在下一阶段补充单元与集成测试。
规范核心路径变更流程：核心模块（调度器、缓存、MoE 层）的每一次修改应附上性能基准，并触发额外 review 环节。
关注 DSV4 HiCache 状态池限制：尽快实现 Sidecar 解析的多源支持，避免用户踩坑。
扩散模型调优迭代：性能模式自动调优的 GPU 内存检测精度、layerwise offload 默认策略等尚需完善，建议收集用户反馈。
CI 稳定性守护：新增的 PR awareness 和动态分区机制需持续监控，确保不因误判导致测试遗漏。

sgl-project/sglang 2026 第 20 周 (05-11 至 05-17) 周报

本周亮点

风险观察

完整周报

执行摘要

本周重点变化

MoE 架构统一化

19290 为 DeepSeek 共享专家引入 Waterfill 负载均衡，提升 EP 吞吐约 4%，并通过 Triton 内核消除 CPU-GPU 同步。

24816 集成 FlashInfer SM90 cutlass MXFP4 MoE 后端，在 Hopper GPU 上实现 24-36% prefill 加速。

DeepSeek V4 功能井喷

推测解码性能提升

25333 实现 MLA chunked-prefill 融合 kernel，最高 10× 加速；#25311 优化 MLA KV 缓存写入（TMA bulk-store）最高 12× 加速；#24925 集成 tokenspeed_mla Blackwell 后端；#25001 支持 MLA 注意力的 LoRA 适配器。

扩散模型内存与量化

24593 将 layerwise offload 泛化至所有组件，用户可精细控制卸载对象；#24491 引入性能模式自动选择（auto/speed/memory），降低调优成本；#25457 新增内存感知加载排序，减少 OOM 风险；#21431 为 AMD GPU 添加在线 MXFP4/FP8 量化。

基础设施抽象

24096 引入 CudaDeviceMixin 平台抽象层，为多硬件支持铺路；#24723 将 ModelExpress 加载委托给外部包，减少 500+ 行代码；#25050 添加 model-config-parser 注册表，支持插件式配置格式；#23449 添加 Apple Metal kernel 构建支持。

CI 升级

25387 将 PR awareness 独立为 workflow 降低权限扩散；#25263 基于实时数据动态划分测试分区；#25420 规范化 CI 阶段命名；#25264 将 runner 配置中心化；#25468 发布脚本更新支持幂等。

模块与主题趋势

风险观察

重点 PR 速览

后续建议

参与讨论