Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

moe 相关 PR

2026-06-03
功能 重要性 7.64 洞察度 5.00

为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持

值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。

#43339 [Feature] Support EPLB for DeepSeek v4 Mega Moe

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 01:56

功能 重要性 8.58 洞察度 6.00

为DeepSeek V4 Mega MoE添加EPLB负载均衡支持

建议在合并前修复PP模式下断言失败的问题。PR的设计(重用现有映射函数、明确环境变量覆盖条件)值得肯定。后续可增加针对PP模式和不同EPLB后端的测试。对于使用DeepSeek V4 Mega MoE的团队,此PR能显著提升大规模部署效率,推荐评估并合入。

#43100 [BugFix] Fix Humming MoE deploy error

原始 PR · 作者 adotdad · 合并时间 2026-06-03 00:32

缺陷修复 重要性 5.32 洞察度 3.00

修复 Humming MoE 部署时 quant config 与 schema 初始化遗漏

建议合并。该 PR 修复了明确的部署阻塞 bug,改动量小且经过本地验证。建议后续为该路径补充测试,防止回归。

2026-06-02
功能 重要性 7.42 洞察度 5.00

为 compressed-tensors MoE WNA16 Marlin 添加非对称量化支持

建议阅读此 PR 以了解如何在 Marlin MoE 量化体系中扩展非对称 zero-point 支持。特别是 `moe_packed_to_marlin_zero_points` 与 `moe_awq_to_marlin_zero_points` 的对比,体现了不同量化工具包打包格式的差异。

2026-06-01
功能 重要性 8.71 洞察度 4.00

新增 JetBrains Mellum v2 代码生成模型支持

该 PR 结构清晰、改动集中,适合作为新模型支持的标准参考。建议简要浏览实现文件,了解 vLLM 添加新模型时需修改的注册点(registry.py、configs/__init__.py、config.py)。

2026-05-30

#38445 [PERF]MiniMax-M2 gate kernel

原始 PR · 作者 jeejeelee · 合并时间 2026-05-30 09:28

性能优化 重要性 9.36 洞察度 7.00

融合 MiniMax-M2 MoE 门控的 FP32 路由 GEMM 核函数

值得精读,展示了如何为特定模型定制融合 GEMM 并通过分层调度集成到现有 MoE 门控框架。重点可关注 `GateLinear.forward` 的四级调度设计和 `fp32_router_gemm_fake` 的注册模式。