# 2026 第 13 周 · 03-23 至 03-29

- 仓库：`sgl-project/sglang`
- 周期：2026-03-23 至 2026-03-29
- 来源 PR：204
- 重点 PR：18
- 生成方式：自动生成
- 原文链接：http://prhub.com.cn/sgl-project/sglang/reports/2026-03-23-to-2026-03-29

---

# SGLang 仓库周报（2026 第 13 周）

## 1. 执行摘要
本周仓库共处理 204 个 PR，其中 18 个为重点 PR，整体活动高度集中于 CI 基础设施优化、性能提升和安全修复。从标签分布看，bugfix（94 次）、ci（88 次）和 test（73 次）为最频繁标签，表明团队在加强系统稳定性和测试覆盖。同时，performance（54 次）和 jit-kernel（24 次）标签凸显了性能优化的优先级，而安全相关 PR 如 CVE 修复和 ZMQ 绑定变更，反映了对安全风险的快速响应。本周最值得关注的变化主线是：通过 CI 工作流重构提升开发效率，通过内核优化和硬件扩展提升推理性能，通过安全修补增强系统防护，同时扩散模型和多模态支持得到进一步巩固。

## 2. 本周重点变化
本周多个重点 PR 在性能、安全和硬件支持方面带来显著影响。首先，PR #19089 引入 skip-softmax 注意力机制，通过环境变量配置阈值优化长上下文推理性能，但在 review 中暴露出阈值传递逻辑风险，需后续验证。其次，PR #21190 为 Whisper 模型启用 CUDA graph 支持和时间戳功能，实现 36% 吞吐量提升，关键通过替换交叉注意力为 RadixAttention 路径解决兼容性问题。在安全方面，PR #20904 修复 CVE-2026-3989，用 SafeUnpickler 替换不安全的 pickle.loads，但 review 指出其安全局限性，计划后续使用 msgpack 替代；PR #21435 将 ZMQ sockets 默认绑定到 localhost，缓解多个 CVSS 9.8 漏洞，但可能影响跨机器访问场景。此外，PR #21440 为扩散模型新增融合 QK RMSNorm + RoPE JIT 内核，在微基准测试中实现约 1.4 倍加速，展示了内核级优化的潜力。

## 3. 模块与主题趋势
从模块和主题看，本周变化呈现以下趋势：CI 基础设施是热点，hot files 中 .github/workflows/pr-test.yml 等文件修改达 12 次，团队通过拆分工作流、添加健康检查和优化触发逻辑，提升 CI 资源利用率和稳定性。性能优化集中在 JIT 内核和注意力机制，多个 PR 如 skip-softmax、HiSparse 缓存管理和 AMD 稀疏注意力优化，致力于减少内存读写和提升计算效率。硬件支持扩展明显，新增 MLX 后端、NPU Hybrid KV Cache 和 AMD FP8 KV 缓存支持，覆盖 Apple Silicon、Ascend 和 AMD 平台，反映团队对多硬件生态的投入。扩散模型模块活跃，标签 diffusion 出现 31 次，涉及量化支持、序列并行修复和 JIT 内核优化，提升图像生成能力和兼容性。测试和文档方面，团队添加大量单元测试（如 srt/constrained、observability 模块）并更新文档，但 top_risks 中“缺少测试覆盖”仍有 15 次，表明测试覆盖仍需加强。

## 4. 风险观察
风险方面，本周需重点关注以下几点：核心路径变更风险最高，达 30 次，涉及注意力后端、调度器和内存池等关键组件，如 PR #19089 中的阈值逻辑和 PR #21435 的 ZMQ 默认值变更，可能引入不稳定性和兼容性问题。缺少测试覆盖风险有 15 次，尤其在性能优化和硬件扩展 PR 中，如 PR #21440 的新内核测试覆盖不足，需补充验证。外部依赖风险如 TRTLLM、FlashInfer 和 MLX，在性能优化中增加系统脆弱性，例如 PR #19089 依赖 TRTLLM 实现 skip-softmax。性能回归风险虽仅 3 次，但实际存在，如 PR #21019 的 Qwen3.5 GDN 投影融合在小模型上报告性能争议，突显优化需精细监控。安全修复不彻底风险，如 SafeUnpickler 可被绕过，且环境变量变更可能破坏现有部署，需长期跟踪。整体而言，风险集中在变更密集的核心模块和测试薄弱环节，需团队持续投入验证和加固。

## 5. 重点 PR 速览
本周多个 PR 值得技术团队精读：PR #19089（Support skip-softmax attention）为 SGLang 添加 TRTLLM-based skip-softmax 支持，优化长上下文性能，但 review 中阈值使用错误风险未明确解决。PR #21190（[Whisper] Enable CUDA graph support and timestamp for whisper model）通过 RadixAttention 路径启用 CUDA 图，提升吞吐量 36%，并集成时间戳功能，review 无重大争议。PR #20904（fix(security): replace unsafe pickle.loads with SafeUnpickler）修复高危 CVE，但 SafeUnpickler 安全性有限，计划后续 msgpack 迁移。PR #21435（[Security] 1/N: Bind ZMQ sockets to localhost）缓解远程访问漏洞，默认值变更可能影响跨机器配置。PR #21440（[Diffusion] Add qknorm rope fuse kernel）新增融合 JIT 内核提升扩散模型性能，涉及 CUDA kernel 优化和兼容性处理。PR #14105（[LoRA][III] Add LoRA support for MoE layers and enable TP）为 MoE 层添加 LoRA 支持并启用 TP，扩展微调能力，但当前仅支持 Triton 后端。PR #20342（[MLX] Add native MLX execution backend for Apple Silicon Mac）引入 MLX 后端提升 Apple Silicon 推理性能，但 ForwardMode.MIXED 未支持需后续处理。这些 PR 涵盖了性能、安全、硬件和模型支持的关键进展。

## 6. 后续建议
基于本周变化，建议工程团队采取以下行动：首先，加强核心路径变更的回归测试，针对注意力机制、调度器和内存管理模块，建立自动化测试套件以验证稳定性。其次，提升测试覆盖，尤其对新增硬件后端和 JIT 内核，补充单元测试和集成测试，减少“缺少测试覆盖”风险。第三，监控性能回归，对优化 PR 如 skip-softmax 和融合内核，实施持续基准测试，确保性能提升无副作用。第四，推进安全增强，规划 msgpack 替代 SafeUnpickler 的方案，并评估 ZMQ 默认值变更对生产环境的影响。第五，优化 CI 流程，继续整合测试注册系统（如 run_suite.py）和健康检查，减少 CI 不稳定性和资源浪费。最后，关注硬件兼容性，协调 AMD、NPU 和 MLX 后端的长期支持，确保多平台部署的可靠性。总体而言，本周进展积极，但需在风险管控和测试深化上持续努力，以维持系统健壮性和创新速度。