SGLang 仓库周报（2026 第19周：05-04 至 05-10）

执行摘要

本周（2026 第 19 周：05-04 至 05-10）SGLang 仓库合并了 228 个 PR，其中高亮 PR 24 个。核心主线包括：DeepSeek V4 模型的里程碑式集成、推测解码模块的系统性重构、扩散模型全链条性能优化，以及多硬件后端（MUSA、AMD、NPU、Intel XPU）支持的持续扩展。同时，可观测性工具链（dumper grafter）和 CI 基础设施也获得了显著增强。变化集中在核心推理路径，风险面集中在测试覆盖不足和核心路径变更上。

本周重点变化

DeepSeek V4 合并（#23882）：经过 29 批 rebase，将 DeepSeek V4 全链路推理支持合入主线，新增 MQA 注意力层、压缩 128 注意力后端、MXFP4 量化 MoE 和 JIT 内核。这是本周最大变更，但测试覆盖不足，需后续补齐。
推测解码架构重构：通过拆分 EagleDraftInput（#24859）、添加自定义算法注册机制（#23991）、清理死代码和重命名字段，大幅提升模块化水平和可扩展性，支持更多模型（Gemma3/4、Kimi-K2.5）的推测解码。
扩散模型性能优化：帧返回路径优化（#24616）通过文件引用避免 ZMQ 序列化；CFG 并行框架重构（#23736）引入策略引擎，实测 LTX2.3 加速 35-38%；LTX2 注意力对齐官方实现（#24313）保证数值精度；VAE 解码并行策略（#23248）可配置 tiled/patch 模式。
多硬件后端推进：MUSA 后端引入 CI 工作流（#20672）和大量优化内核（#23255）；AMD 后端支持深色 FP8 MLA 注意力（#20319）、双流 MoE（#24005）并增加 nightly 测试（#24203）；NPU 支持 Trinity-mini 模型（#18172）和 MXFP8 量化（#20922）；Intel XPU 修复 MLA workspace 计算（#24372）并支持 DeepSeek V3.2（#24356）。
可观测性与调试：dumper grafter 新增跨系统张量嫁接、双向传输等能力（#24507-#24513），成为新的调试工具链；重量检查器增加校验和与测试（#24537）；调度指标新增 fwd_occupancy（#24458）。

模块与主题趋势

推测解码

本周重构和扩展动作频繁。除了数据拆分和注册机制，还清理了多处理器的死代码（#24865），移除了冗余的 accept_tokens 字段（#24735），并添加了命名规范文档（#24094）。算法支持方面，新添 Gemma4 MTP（#24436）和 Kimi-K2.5 EAGLE3 MLA（#24826），覆盖更多模型。总体朝着模块化、可插拔方向演进。

扩散模型

性能优化是主旋律：融合 kernel（#24411）、预计算扰动状态（#24494）、直连 all-to-all 替代功能集合（#24366）等均在提升速度。量化方面，HunyuanVideo 新增 ModelOpt FP8（#23199），Wan2.2 支持 MXFP8 在线/离线量化（#20922）。同时，与官方数值对齐（#24313）和 FSDP 分片修复（#24431）保证了精度和稳定性。

核心调度与 KV 缓存

HiCache 支持 SWA（#23391）是重要进展，使滑动窗口注意力缓存可在设备与主机间分层管理，吞吐量翻倍。PD 分离修复持续进行，包括状态转移（#22665）、GC 清理集中化（#24601）、更新状态处理（#24522）等。统一 radix cache 的空 match 结果缓存（#24470）减少了分配开销。

CI 与基础设施

本周对 CI 进行了大规模调整：per-commit 测试裁剪 39 个用例至 manual（#24721），新增 Arm64 CPU CI 引导（#22123），添加 bypass-fastfail 标签加速失败跳过（#24577），扩展 PyPI 发布矩阵（#24565）。这些改动在减少 CI 资源消耗的同时，提高了灵活性。

风险观察

测试覆盖不足：41 个 PR 明确标记缺少测试覆盖，其中 DeepSeek V4 和新模型支持最突出，可能导致回归未被及时发现。
核心路径变更：34 个 PR 涉及调度器、KV 缓存、注意力后端等核心改动，需要严格的回归测试。
TP>1 兼容性未验证：多个 PR（如 #24436、#23991）未明确测试多卡场景，潜在问题可能在部署中暴露。
dumper grafter 性能开销：广播操作（all_gather_object）可能在高吞吐场景下成为瓶颈，需监控。
默认行为变更：VAE CPU offload 禁用（#24315）和 FlashInfer 工作区 OOM 修复（#24172）改变了默认路径，需确保文档同步更新。

重点 PR 速览

#23882：DeepSeek V4 集成 – 全链路支持，包含 MQA 注意力、MXFP4 MoE、JIT 内核，里程碑变更。
#24859：拆分 EagleDraftInput – 消除阶段间 in-place 修改，提升代码可维护性。
#23991：自定义推测算法注册 – 装饰器+全局注册表，无需修改源码即可扩展新算法。
#20672：MUSA CI 工作流 – 为摩尔线程 GPU 添加扩散和 kernel 测试，支持多后端 CI。
#24616：扩散帧返回优化 – 用文件引用避免 ZMQ 序列化，大幅降低 IPC 开销。
#23736：CFG 并行框架重构 – 引入策略模式，LTX2.3 推理提升 35-38%。
#23967：Nixl 异步传输 – 多线程队列解耦，传输延迟降低 4x。
#23391：HiCache SWA 支持 – 统一 radix cache 中 SWA 的分层管理，吞吐量翻倍。
#24537：重量检查器校验和 – 新增 /v1/checksum 端点，增强权重调试能力。
#24721：CI 测试裁剪 – 将 39 个测试移至 manual，减少 per-commit 耗时。

后续建议

补齐测试覆盖：优先为 DeepSeek V4、推测解码新模型和核心路径变更补充单元测试与集成测试，尤其关注多卡场景。
验证 TP>1 兼容性：对本周更改为模型后端和通信机制的 PR，在 TP 环境下进行回归测试。
跟踪 dumper grafter 性能：在预生产环境中评估广播操作的延迟影响，必要时添加替代方案。
固化扩散模型精度基线：随着大量对齐和优化 PR 合入，应运行全量一致性测试并更新 Ground Truth。
文档同步更新：确保默认行为变更（如 VAE offload）和新增 CLI 参数在 doc 中明确记录，降低用户困惑。
监控 CI 稳定性：裁剪后的 test/manual 需定期轮回归，避免覆盖遗漏。

本周亮点

风险观察

完整周报

执行摘要

本周重点变化

模块与主题趋势

推测解码

扩散模型

核心调度与 KV 缓存

CI 与基础设施

风险观察

重点 PR 速览

后续建议

参与讨论