#39205 [Refactor] Move MXFP8 GEMM management into MxFp8LinearKernel
作者 mgoin · 合并时间 2026-04-11 05:02
重构MXFP8量化线性核管理,引入模块化内核选择架构。
该PR值得精读,特别是init_mxfp8_linear_kernel中的内核选择逻辑和Mxfp8LinearKernel基类设计,展现了vLLM量化基础设施的模块化演进。关注点包括:如何平衡设计一致性与潜在风险(如compute_capability处理)、维度约束的未来解决方案,以及向后兼容性确保。
参与讨论