#38192 [Quantization][Autoround][CPU] Add W4A16 Support
作者 Zhenzhong1 · 合并时间 2026-04-15 18:38
为CPU平台添加W4A16量化支持,扩展AutoRound格式模型在vLLM中的推理能力。
该PR值得精读,特别是对于关注vLLM量化系统扩展和跨平台支持的开发者。值得关注的设计决策包括:1) 通过复用现有`apply_gptq_quant_layer`来实现CPU W4A16支持,避免了重复实现内核逻辑;2) 在`get_quant_method`中清晰的分层路由逻辑(先平台,后格式),这体现了模块化的设计思路。
参与讨论