SGLang仓库周报（2026第13周）

1. 执行摘要

本周仓库共处理204个PR，其中18个为重点PR，整体活动高度集中于CI基础设施优化、性能提升和安全修复。从标签分布看，bugfix（94次）、ci（88次）和test（73次）为最频繁标签，表明团队在加强系统稳定性和测试覆盖。同时，performance（54次）和jit-kernel（24次）标签凸显了性能优化的优先级，而安全相关PR如CVE修复和ZMQ绑定变更，反映了对安全风险的快速响应。本周最值得关注的变化主线是：通过CI工作流重构提升开发效率，通过内核优化和硬件扩展提升推理性能，通过安全修补增强系统防护，同时扩散模型和多模态支持得到进一步巩固。

2. 本周重点变化

本周多个重点PR在性能、安全和硬件支持方面带来显著影响。首先，PR #19089引入skip-softmax注意力机制，通过环境变量配置阈值优化长上下文推理性能，但在review中暴露出阈值传递逻辑风险，需后续验证。其次，PR #21190为Whisper模型启用CUDA graph支持和时间戳功能，实现36%吞吐量提升，关键通过替换交叉注意力为RadixAttention路径解决兼容性问题。在安全方面，PR #20904修复CVE-2026-3989，用SafeUnpickler替换不安全的pickle.loads，但review指出其安全局限性，计划后续使用msgpack替代；PR #21435将ZMQ sockets默认绑定到localhost，缓解多个CVSS 9.8漏洞，但可能影响跨机器访问场景。此外，PR #21440为扩散模型新增融合QK RMSNorm + RoPE JIT内核，在微基准测试中实现约1.4倍加速，展示了内核级优化的潜力。

3. 模块与主题趋势

从模块和主题看，本周变化呈现以下趋势：CI基础设施是热点，hot files中.github/workflows/pr-test.yml等文件修改达12次，团队通过拆分工作流、添加健康检查和优化触发逻辑，提升CI资源利用率和稳定性。性能优化集中在JIT内核和注意力机制，多个PR如skip-softmax、HiSparse缓存管理和AMD稀疏注意力优化，致力于减少内存读写和提升计算效率。硬件支持扩展明显，新增MLX后端、NPU Hybrid KV Cache和AMD FP8 KV缓存支持，覆盖Apple Silicon、Ascend和AMD平台，反映团队对多硬件生态的投入。扩散模型模块活跃，标签diffusion出现31次，涉及量化支持、序列并行修复和JIT内核优化，提升图像生成能力和兼容性。测试和文档方面，团队添加大量单元测试（如srt/constrained、observability模块）并更新文档，但top_risks中“缺少测试覆盖”仍有15次，表明测试覆盖仍需加强。

4. 风险观察

风险方面，本周需重点关注以下几点：核心路径变更风险最高，达30次，涉及注意力后端、调度器和内存池等关键组件，如PR #19089中的阈值逻辑和PR #21435的ZMQ默认值变更，可能引入不稳定性和兼容性问题。缺少测试覆盖风险有15次，尤其在性能优化和硬件扩展PR中，如PR #21440的新内核测试覆盖不足，需补充验证。外部依赖风险如TRTLLM、FlashInfer和MLX，在性能优化中增加系统脆弱性，例如PR #19089依赖TRTLLM实现skip-softmax。性能回归风险虽仅3次，但实际存在，如PR #21019的Qwen3.5 GDN投影融合在小模型上报告性能争议，突显优化需精细监控。安全修复不彻底风险，如SafeUnpickler可被绕过，且环境变量变更可能破坏现有部署，需长期跟踪。整体而言，风险集中在变更密集的核心模块和测试薄弱环节，需团队持续投入验证和加固。

5. 重点PR速览

本周多个PR值得技术团队精读：PR #19089（Support skip-softmax attention）为SGLang添加TRTLLM-based skip-softmax支持，优化长上下文性能，但review中阈值使用错误风险未明确解决。PR #21190（[Whisper] Enable CUDA graph support and timestamp for whisper model）通过RadixAttention路径启用CUDA图，提升吞吐量36%，并集成时间戳功能，review无重大争议。PR #20904（fix(security): replace unsafe pickle.loads with SafeUnpickler）修复高危CVE，但SafeUnpickler安全性有限，计划后续msgpack迁移。PR #21435（[Security] 1/N: Bind ZMQ sockets to localhost）缓解远程访问漏洞，默认值变更可能影响跨机器配置。PR #21440（[Diffusion] Add qknorm rope fuse kernel）新增融合JIT内核提升扩散模型性能，涉及CUDA kernel优化和兼容性处理。PR #14105（[LoRA][III] Add LoRA support for MoE layers and enable TP）为MoE层添加LoRA支持并启用TP，扩展微调能力，但当前仅支持Triton后端。PR #20342（[MLX] Add native MLX execution backend for Apple Silicon Mac）引入MLX后端提升Apple Silicon推理性能，但ForwardMode.MIXED未支持需后续处理。这些PR涵盖了性能、安全、硬件和模型支持的关键进展。

6. 后续建议

基于本周变化，建议工程团队采取以下行动：首先，加强核心路径变更的回归测试，针对注意力机制、调度器和内存管理模块，建立自动化测试套件以验证稳定性。其次，提升测试覆盖，尤其对新增硬件后端和JIT内核，补充单元测试和集成测试，减少“缺少测试覆盖”风险。第三，监控性能回归，对优化PR如skip-softmax和融合内核，实施持续基准测试，确保性能提升无副作用。第四，推进安全增强，规划msgpack替代SafeUnpickler的方案，并评估ZMQ默认值变更对生产环境的影响。第五，优化CI流程，继续整合测试注册系统（如run_suite.py）和健康检查，减少CI不稳定性和资源浪费。最后，关注硬件兼容性，协调AMD、NPU和MLX后端的长期支持，确保多平台部署的可靠性。总体而言，本周进展积极，但需在风险管控和测试深化上持续努力，以维持系统健壮性和创新速度。

支持 Prhub ♥

2026 第 13 周 · 03-23 至 03-29

本周亮点

风险观察

完整周报