b12x MoE 后端支持 W4A16 NVFP4 检查点
此 PR 值得精读,因为它展示了一个精心设计的元数据兼容性修复,同时也体现了在热路径中避免动态分配的良好实践。
标签列表
聚合结果
b12x MoE 后端支持 W4A16 NVFP4 检查点
此 PR 值得精读,因为它展示了一个精心设计的元数据兼容性修复,同时也体现了在热路径中避免动态分配的良好实践。
为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持
值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。
为DeepSeek V4 Mega MoE添加EPLB负载均衡支持
建议在合并前修复PP模式下断言失败的问题。PR的设计(重用现有映射函数、明确环境变量覆盖条件)值得肯定。后续可增加针对PP模式和不同EPLB后端的测试。对于使用DeepSeek V4 Mega MoE的团队,此PR能显著提升大规模部署效率,推荐评估并合入。
修复 Humming MoE 部署时 quant config 与 schema 初始化遗漏
建议合并。该 PR 修复了明确的部署阻塞 bug,改动量小且经过本地验证。建议后续为该路径补充测试,防止回归。
原始 PR · 作者 brian-dellabetta · 合并时间 2026-06-02 23:51
为 compressed-tensors MoE WNA16 Marlin 添加非对称量化支持
建议阅读此 PR 以了解如何在 Marlin MoE 量化体系中扩展非对称 zero-point 支持。特别是 `moe_packed_to_marlin_zero_points` 与 `moe_awq_to_marlin_zero_points` 的对比,体现了不同量化工具包打包格式的差异。
新增 JetBrains Mellum v2 代码生成模型支持
该 PR 结构清晰、改动集中,适合作为新模型支持的标准参考。建议简要浏览实现文件,了解 vLLM 添加新模型时需修改的注册点(registry.py、configs/__init__.py、config.py)。
融合 MiniMax-M2 MoE 门控的 FP32 路由 GEMM 核函数
值得精读,展示了如何为特定模型定制融合 GEMM 并通过分层调度集成到现有 MoE 门控框架。重点可关注 `GateLinear.forward` 的四级调度设计和 `fp32_router_gemm_fake` 的注册模式。
回退 WNA16 MoE oracle 迁移重构
该 PR 是修复性回退,值得相关人员了解合并过程中出现的问题,但普通使用者无需深究。关注后续意图为正确合并的重新提交。