Prhub

vLLM 周报:2026 年第 22 周(05/25 - 05/31)

本周 vLLM 团队在 MoE 量化 oracle 模块化重构、ROCm 性能优化、Rust 前端能力增强及 DeepSeek V4 模型深度迭代方面取得显著进展,同时修复大量 bug 并启动废弃流程,整体代码活跃度高,风险变更需持续关注。

仓库:vllm-project/vllm 周期:2026-05-25 至 2026-05-31 来源 PR:199 · 重点 PR:24 自动生成 · 生成于 2026-06-01 01:01

本周亮点

  • MoE 量化 oracle 模块化重构持续推进:bnellnm 的多项 PR(#42647, #42553, #42789)将 WNA16、W4A8 等量化后端统一迁移至 oracle 选择架构,为后续扩展奠定基础。
  • ROCm 平台多重重磅优化:原生 RDNA3 W4A16 内核(#41394)实现 fp16/bf16 性能飞跃;Tilelang MHC 替换 Torch/Triton(#43679)并修复多 bug(#42595);消除稀疏注意力 GPU 气泡(#43898)等。
  • Rust 前端快速发展:新增 mock engine(#43469)、对齐工具解析器流式 / 非流式行为(#43662)、优化多模态提示扩展(#43670)、添加 /version 端点(#43854)及 hy_v3 解析器(#43872)。
  • DeepSeek V4 模型深度迭代:涉及 compressor 重构(#43710)、移除 MegaMoE/AMD 路径(#43629, #43629)、融合 Q pad(#43162)、CuTe DSL 稀疏压缩器(#43584)等近 20 个 PR,成为本周最活跃模型。
  • KV offload 向精细化演进:引入 per-request 卸载策略和生命周期钩子(#43205)、跳过 decode 阶段卸载(#43797)、rename get_finished(#43870)等。
  • 新模型支持扩展生态:Step-3.7-Flash(#43859, #43956)、GLMGA 多模态(#43575)、Cosmos3 Reasoner(#43356)及 MiniCPM5 工具解析器(#43175)。
  • 大量 bugfix 与代码清理:废弃 JAISLMHeadModel(#43784)、删除 NormGateLinear(#43554)、移除死代码(#43234)等,巩固代码健壮性。

风险观察

  • 核心路径变更风险:MoE oracle 重构、注意力后端统一、模型加载路径修改等涉及核心逻辑,缺乏充分测试覆盖可能引入回归。
  • 测试覆盖不足:新模型(Step-3.7-Flash、Cosmos3)、新内核(RDNA3、Tilelang)在特定平台(ROCm、XPU)上的自动化测试薄弱。
  • 平台耦合假设:zentorch CPU 集成(#41813)假设 AMD Zen 平台,MoRI 连接器(#41751)依赖特定内核行为,长期需通用化。
  • 废弃模型用户兼容性:JAISLMHeadModel 废弃(#43784)可能影响仍在使用旧版本的用户,需关注迁移指引。
  • 分布式与 spec decode 场景复杂:多个 bugfix 针对 TP>1、PP>1、spec decode + KV connector 等组合场景,测试覆盖仍显不足。

完整周报

执行摘要

本周(2026-05-25 至 2026-05-31)vLLM 仓库共合并 199 个 PR,其中重点 PR 24 个。整体变化主线围绕 MoE 量化 oracle 模块化重构ROCm 平台性能跃升Rust 前端能力增强 以及 DeepSeek V4 模型深度迭代 展开。团队在保持高频迭代的同时,通过大量 bugfix 和代码清理巩固了代码基础。值得关注的风险集中在核心路径变更的测试覆盖缺口和新平台/新模型的可维护性上。

本周重点变化

MoE 量化 oracle 模块化重构

由 bnellnm 主导的 MoE 量化后端重构取得重要进展。PR #42647 将 MoeWNA16Method 迁移至 MK oracle,统一后端选择;#42553 将 CompressedTensorsWNA16MarlinMoEMethod 接入 oracle 并新增 FlashInfer Monolithic 支持;#42789 引入 CPU 端 W4A8 oracle 架构。这些 PR 共同构建了可扩展的 MoE 后端选择框架,未来增加新后端将更加简洁。同时 #43108 移除了不再需要的 supports_expert_map,#43727 清理了 inplace 机制,体现了重构与清理并进的风格。

ROCm 平台多重重磅发布

AMD ROCm 团队本周成果丰硕:#41394 为 RDNA3 (gfx1100) 引入原生 HIP W4A16 GPTQ 内核,性能可达 Triton bf16 的 2.5-4.2 倍;#43679 启用 Tilelang 实现的 MHC 内核,覆盖 CUDA 和 ROCm;#42595 修复了 DSv4 上 AITER MxFP4 MoE 的三大 bug;#43898 消除了稀疏注意力中的 GPU 气泡。此外,CI 工作负载从 MI300 迁移到 MI325(#43824),并升级 ROCm 至 7.2.3(#43136)。这些改进显著提升了 AMD 平台尤其是消费级 GPU 的推理竞争力。

Rust 前端能力扩张

BugenZhao 领衔的 Rust 前端持续进化:#43469 引入 mock engine 支持压力测试;#43662 统一工具解析器流式/非流式行为;#43670 优化多模态提示扩展实现 7.3x 加速;#43854 新增 /version 端点;#43872 添加 hy_v3 工具解析器;#43850 将 Gemma4 参数扫描性能提升约 600 倍。同时测试体系同步完善(#43582 往返测试)。这些 PR 使 Rust 前端在功能完备性和性能上持续接近 Python 版本。

DeepSeek V4 深度迭代

DeepSeek V4 模型成为本周修改最频繁的模型,涉及近 20 个 PR。关键改进包括:compressor 重构并修复 ROCm 兼容性(#43710)、移除 MegaMoE 和 AMD 路径以简化架构(#43629, #43829, #43891)、融合 Q head padding 消除 F.pad(#43162)、CuTe DSL 稀疏压缩器(#43584)、Move MegaMoE 输入准备 kernel 到独立文件(#43632)。这些变更表明团队正集中力量优化 DSV4 的推理性能与代码结构。

模块与主题趋势

模块 趋势 代表 PR
MoE 重构 量化后端全面 oracle 化,统一选择机制 #42647, #42553, #42789, #43108, #43727
ROCm 原生 kernel 加速、Tilelang 集成、Bug 修复 #41394, #43679, #42595, #43898, #43120, #43781
Rust 前端 功能完善、性能优化、测试增强 #43469, #43662, #43670, #43854, #43872, #43850
DeepSeek V4 重构精简、融合 kernel、 ROCm 修复 #43710, #43629, #43162, #43584, #43905
KV offload 精细化策略、生命周期管理 #43205, #43797, #43870, #39983
新模型/解析器 Step-3.7, GLMGA, Cosmos3, MiniCPM5 等 #43859, #43575, #43356, #43175
CI/Infra arm64 构建、Rust 标签自动标记、测试优化 #41303, #43866, #43824, #43815

风险观察

本周 PR 中高频出现“核心路径变更”和“缺少测试覆盖”风险标签(分别为 26 和 23 次)。主要风险集中在:

  • MoE oracle 重构:多个 PR 修改了量化权重处理和后端选择逻辑,但测试仅覆盖主要后端,组合场景(如 TP>1 + spec decode)验证不足。
  • 新平台 kernel:RDNA3 内核(#41394)无 CI 覆盖,Tilelang MHC(#43679)对 warp size 硬编码 32,虽经解释但仍存隐忧。
  • 废弃流程:JAISLMHeadModel 废弃(#43784)可能影响用户,需确保迁移路径清晰。
  • 分布式复杂性:多个 bugfix 针对 KV connector、spec decode 等交叉场景(#43719, #42585),时序依赖风险难以完全通过单机测试覆盖。

重点 PR 速览

  1. #41394 - [Kernel][ROCm] Native W4A16 kernel for AMD RDNA3:为 gfx1100 实现高性能量化内核,decode 和 prefill 均超越现有方案,是 ROCm 消费级 GPU 推理的重要突破。
  2. #42647 & #42553 - MoE oracle 重构:统一 WNA16 和 CompressedTensors 量化后端,新增 FlashInfer Monolithic 支持,为后续所有 MoE 量化方法提供可扩展框架。
  3. #43205 - [KV Offload] per-request 卸载策略:引入 OffloadPolicy 和生命周期钩子,使次级层能按需控制块卸载,是 KV offload 智能化的关键一步。
  4. #43469 - [Rust Frontend] mock engine:在无 GPU 环境下对前端进行压力测试,基准达 2.1M token/s,是 Rust 前端独立迭代的基础设施。
  5. #38445 - [PERF] MiniMax-M2 gate kernel:融合 FP32 路由 GEMM 核,低并发下吞吐提升 32%,展示了为特定模型定制 kernel 的极致优化。
  6. #43859 - [Model] Support Step-3.7-Flash:支持最新多模态 MoE 模型及 MTP 推测解码,per-group slot mapping 设计值得借鉴。
  7. #42789 - [MoE Refactor] CPU W4A8 oracle:将 CPU 端 W4A8 量化纳入 oracle 架构,推动 CPU 推理现代化。
  8. #43575 - [feat] GLMGA processor:新增 GLMGA 多模态模型支持,但存在除零和类型安全等问题,需要后续修复。

后续建议

  • 加强 oracle 重构的测试覆盖:建议为核心 MoE 后端(Marlin, FlashInfer, Triton)添加跨平台、跨并行配置的集成测试。
  • 持续关注 ROCm 稳定性:RDNA3 内核和 Tilelang 虽已合并,但缺少 CI 回归,建议推动 CI 引入 RDNA3 或其他 ROCm 设备。
  • Rust 前端功能追赶:继续补齐 Python 前端已有功能(如完整工具调用、reasoning),并关注 mock engine 中已指出的潜在问题(直接索引、忙循环)。
  • DeepSeek V4 收敛:本周重构动作频繁,下一步应稳定代码并完善端到端性能基准,确保改动不引入回归。
  • 排查废弃模型的用户影响:对 JAIS 等废弃模型提供明确的迁移指南和版本支持说明,降低社区升级成本。

参与讨论