Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

quantization 相关 PR

2026-06-04

#44122 [Refactor] Remove dead code fp quant

原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22

重构 重要性 6.06 洞察度 2.00

移除 FPQuant 中的死代码

建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。

2026-06-03

#44347 [Bugfix] Update TrtLLM MoE routing methods

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 17:56

缺陷修复 重要性 6.85 洞察度 5.00

修复 TrtLLM MoE 路由方法分类及 dtype 检查

建议尽快合入,以修复 CI 失败和模型兼容性问题。该 PR 展现了精细的路由方法分类调整,可精读 `get_routing_method_type` 的决策树逻辑,了解不同模型的路由模式。

功能 重要性 7.66 洞察度 5.00

启用 ROCm 的 per-token-group 量化内核

值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。

功能 重要性 7.64 洞察度 5.00

为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持

值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。

#43100 [BugFix] Fix Humming MoE deploy error

原始 PR · 作者 adotdad · 合并时间 2026-06-03 00:32

缺陷修复 重要性 5.32 洞察度 3.00

修复 Humming MoE 部署时 quant config 与 schema 初始化遗漏

建议合并。该 PR 修复了明确的部署阻塞 bug,改动量小且经过本地验证。建议后续为该路径补充测试,防止回归。

2026-06-02
功能 重要性 7.42 洞察度 5.00

为 compressed-tensors MoE WNA16 Marlin 添加非对称量化支持

建议阅读此 PR 以了解如何在 Marlin MoE 量化体系中扩展非对称 zero-point 支持。特别是 `moe_packed_to_marlin_zero_points` 与 `moe_awq_to_marlin_zero_points` 的对比,体现了不同量化工具包打包格式的差异。

#42958 Support ModelOpt MXFP8 non-gated MoE

原始 PR · 作者 TomerBN-Nvidia · 合并时间 2026-06-02 21:56

功能 重要性 6.14 洞察度 4.00

为 MXFP8 MoE 添加对 RELU2_NO_MUL 激活的支持

该 PR 功能明确、改动集中,评审无重大分歧,建议合并。但精读价值不高,主要关注点在于如何通过条件分支兼容不同激活和量化模式的设计模式。未来应考虑将 TRTLLM MXFP8 MoE 集成到统一 oracle 路径。