#38288 [Quant] Consolidate GPTQ: rename gptq_marlin.py to auto_gptq.py

原始 PR 作者 chengyinie 合并时间 2026-05-15 08:25 文件变更 21 提交数 5 评论 40 代码增减 +171 / -602

执行摘要

GPTQ 量化整合：重命名模块为 auto_gptq

根据 issue #37765，当前存在两个并行的 GPTQ 量化文件：gptq.py（采用 Exllama 内核）和 gptq_marlin.py（采用 Marlin 内核）。由于量化格式与内核已解耦，不再需要独立维护两个配置；应删除 gptq.py，将剩余功能整合到单一模块，并重命名为 auto_gptq 以反映其自动选择内核的能力。

建议阅读本 PR 的设计决策，特别是向后兼容策略（通过保留旧名称并使用 override），以及 min_capability 调整的考量。测试中移除了 2/3 比特覆盖，团队应考虑是否在文档中明确废弃说明。如果用户依赖 2/3 比特，应保留沟通渠道。

讨论亮点

Review 中核心讨论包括：

向后兼容性：gemini-code-assist[bot] 指出移除 gptq 和 gptq_marlin 从 QuantizationMethods 会导致用户传入这些值时验证失败；作者随后保留了这些名称，并在 method_to_config 中映射到 AutoGPTQConfig。
Min Capability 调整：mgoin 质疑 get_min_capability 从 75 降为 60 的准确性，robertgshaw2-redhat 解释新类可运行 Marlin 或 Triton 内核，Triton 支持更低能力，因此调整正确。
2/3 比特支持移除：mgoin 和 wenhuach21 询问是否故意丢弃 2/3 比特支持，作者确认是有意为之（Marlin 不支持且 Exllama 未测试），但将来可能通过扩展 TYPE_MAP 或 Exllama 后端恢复。
override_quantization_method 必要性：robertgshaw2-redhat 建议移除该函数，作者解释需要它处理用户指定 auto_gptq 但 HF 配置为 gptq 的不匹配情形。

实现拆解

删除旧 GPTQ 配置：移除 vllm/model_executor/layers/quantization/gptq.py，该文件定义了 GPTQConfig 并支持 2/3/4/8 比特。由于 Marlin 内核仅支持 4/8 比特，且 Exllama 后端未积极维护 2/3 比特路径，因此直接丢弃，避免运行时静默失败。
重命名核心量化模块：将 gptq_marlin.py 移动并重命名为 auto_gptq.py。内部类重命名：GPTQMarlinConfig → AutoGPTQConfig，GPTQMarlinLinearMethod → AutoGPTQLinearMethod，GPTQMarlinMoEMethod → AutoGPTQMoEMethod。get_name() 返回 "auto_gptq"，get_min_capability() 下调至 60（因 Triton 后端可支持更低计算能力的硬件）。
添加自动路由机制：在 AutoGPTQConfig 中新增 override_quantization_method 类方法。当用户未指定量化方法或指定 gptq/gptq_marlin/auto_gptq 时，若 HF 配置包含 quant_method: gptq，则自动将其映射为 auto_gptq。旧名称 gptq 和 gptq_marlin 保留在 QuantizationMethods 字面量中，并通过 method_to_config 映射回 AutoGPTQConfig，确保向后兼容。
全局导入更新：修改所有引用 gptq_marlin 或 gptq 的地方，包括 vllm/model_executor/layers/quantization/__init__.py、linear.py、inc.py、moe_wna16.py、int_wna16.py、model.py（删除 gptq_marlin 从 overrides 列表但保留 auto_gptq），以及 ROCm 和 CI 配置。
测试适配与新增：新增 tests/quantization/test_auto_gptq.py 验证 auto_gptq 加载和推理。更新 test_gptq_dynamic.py、test_gptq_v2.py 移除对 GPTQLinearMethod 的依赖（因 2/3 比特模型不再支持）。更新 test_gptq_marlin.py 的 skipif 条件为检查 auto_gptq 支持。修复 test_configs.py 中预期 quant_type 为 auto_gptq。

文件	模块	状态	重要度
`vllm/model_executor/layers/quantization/auto_gptq.py`	量化核心	renamed	9.03
`vllm/model_executor/layers/quantization/gptq.py`	旧量化	removed	9.17
`vllm/model_executor/layers/quantization/utils/gptq_utils.py`	工具函数	modified	7.3
`vllm/model_executor/layers/quantization/__init__.py`	量化路由	modified	6.29
`vllm/model_executor/layers/quantization/inc.py`	INC 兼容	modified	6.68
`tests/quantization/test_auto_gptq.py`	测试	added	6.33
`vllm/config/model.py`	配置管理	modified	5.5

关键符号

AutoGPTQConfig.__init__ AutoGPTQConfig.get_name AutoGPTQConfig.get_min_capability AutoGPTQConfig.from_config AutoGPTQConfig.override_quantization_method AutoGPTQLinearMethod AutoGPTQMoEMethod override_config get_moe_quant_method get_linear_quant_method get_dynamic_override

关键源码片段

vllm/model_executor/layers/quantization/auto_gptq.py rename-or-move

核心变更文件。原本为 gptq_marlin.py，重命名为 auto_gptq.py；类名更新，添加 override_quantization_method。

class AutoGPTQConfig(QuantizationConfig):
    """Config class for AutoGPTQ quantization using Marlin kernels."""

    # (num_bits, is_sym) -> quant_type 映射表，仅支持 4 位和 8 位对称量化
    TYPE_MAP = {
        (4, True): scalar_types.uint4b8,
        (8, True): scalar_types.uint8b128,
    }

    @classmethod
    def override_quantization_method(
        cls,
        hf_quant_cfg: dict,
        user_quant: str | None,
    ) -> str | None:
        """
        自动将 HF 配置中的 `quant_method: gptq` 映射为 `auto_gptq`。

        如果用户指定了 `gptq`、`gptq_marlin` 或 `auto_gptq` 之一，
        并且 HF 配置是 gptq，则返回 `"auto_gptq"`，从而允许验证通过。
        """
        quant_method = hf_quant_cfg.get("quant_method", "").lower()
        if quant_method != "gptq":
            return None # 非 GPTQ 模型，不处理

        # 用户未指定或指定了兼容的名称，都返回 auto_gptq
        is_valid_user_quant = user_quant is None or user_quant in (
            "gptq",
            "gptq_marlin",
            "auto_gptq",
            "marlin",
        )
        if is_valid_user_quant:
            return cls.get_name() # "auto_gptq"
        return None

vllm/model_executor/layers/quantization/utils/gptq_utils.py data-contract

简化 override_config 函数，移除 GPTQConfig 分支，统一处理 AutoGPTQConfig。

def override_config(config: AutoGPTQConfig, prefix: str):
    """
    根据 module prefix 匹配 dynamic 规则，覆盖基类量化配置。
    现在直接操作 AutoGPTQConfig，不再区分 gptq 与 gptq_marlin 两条分支。
    """
    # 从 dynamic 字典中读取 bits 并覆盖
    weight_bits = get_dynamic_override(config, prefix, "bits", config.weight_bits)
    if isinstance(weight_bits, int):
        config.weight_bits = weight_bits

    group_size = get_dynamic_override(config, prefix, "group_size", config.group_size)
    if isinstance(group_size, int):
        config.group_size = group_size

    desc_act = get_dynamic_override(config, prefix, "desc_act", config.desc_act)
    if isinstance(desc_act, bool):
        config.desc_act = desc_act

    # 重新计算 pack_factor，使用整数除法代替 Fraction
    config.pack_factor = 32 // config.weight_bits

    # 只处理 AutoGPTQConfig，不再有 GPTQConfig 分支
    assert isinstance(config, AutoGPTQConfig)
    is_sym = get_dynamic_override(config, prefix, "sym", config.is_sym)
    if isinstance(is_sym, bool):
        config.is_sym = is_sym

    # 验证组合是否在 TYPE_MAP 中（仅 4 位或 8 位对称）
    if (config.weight_bits, config.is_sym) not in config.TYPE_MAP:
        raise ValueError(
            "Unsupported quantization config: "
            f"bits={config.weight_bits}, sym={config.is_sym}"
        )

    config.quant_type = config.TYPE_MAP[(config.weight_bits, config.is_sym)]

评论区精华

保留旧量化方法名称 设计

gemini-code-assist[bot] 指出从 QuantizationMethods Literal 中移除 gptq 和 gptq_marlin 将导致用户传入这些值时验证失败，破坏向后兼容性。

结论：作者在 __init__.py 中保留了这些名称，并保持 method_to_config 映射到 AutoGPTQConfig。 · 已解决

降低最低计算能力要求 正确性

mgoin 质疑从 75 改为 60 的准确性，robertgshaw2-redhat 解释新类可同时使用 Marlin 或 Triton 内核，Triton 支持更低能力，因此调整正确。

结论：作者接受并保留 60。 · 已解决

移除 2/3 比特 GPTQ 支持 other

mgoin 询问是否故意丢弃 2/3 比特支持，作者确认 Marlin 内核不支持且 Exllama 后端未测试，故移除；wenhuach21 后续提出社区需求，作者列举了可能恢复的路径（TYPE_MAP 扩展或 Exllama 后端）。

结论：已移除 2/3 比特支持，但作者表态愿意未来恢复。 · 已解决

override 方法必要性 设计

robertgshaw2-redhat 建议移除 override_quantization_method，作者解释需要它来处理用户指定 auto_gptq 但 HF 配置为 gptq 的不匹配情形。

结论：保留 override_quantization_method。 · 已解决

风险与影响

向后兼容风险：虽然保留 gptq 和 gptq_marlin 作为输入参数，但 get_name() 返回 auto_gptq，任何依赖此字符串的外部代码可能需更新。model.py 中 overrides 列表顺序变化可能影响覆盖优先级。
功能减退风险：不再支持 2/3 比特 GPTQ 模型，持有此类权重的用户需改用旧版本或其他量化方式。
硬件兼容风险：min_capability 降至 60 可能允许更低计算能力的 GPU 加载，但 Marlin 内核实际需要 75，Triton 内核可能未在所有场景充分测试，存在性能下降或运行时错误风险。
测试覆盖不足：新增测试仅覆盖 4 比特模型，未测试动态配置、v2 格式、MoE 等场景；test_gptq_v2.py 中原 2 比特模型不再加载，但未补充等效的 4/8 比特 v2 测试。
全局导入修改风险：21 个文件涉及导入变更，任何遗漏可能导致导入错误；CI 早期发现 test_configs.py 预期值未更新，已修复。

用户影响：使用 --quantization gptq_marlin 的现有脚本仍可工作（自动映射到 auto_gptq），但建议用户迁移到 auto_gptq。2/3 比特 GPTQ 用户将无法直接加载，需转换或保留旧版本。
系统影响：模块数量减少，内部结构更清晰，未来扩展自动量化方法更简单。
团队影响：后续 GPTQ 相关开发集中在 auto_gptq.py，维护者需关注 Marlin 与 Triton 后端的正确路由。

向后兼容风险功能减退（2/3-bit）硬件兼容风险测试覆盖不足全局导入修改风险

关联 Issue

#37765 [Feature]: Consolidate GPTQ Quantization

完整报告

执行摘要

一句话：GPTQ 量化整合：重命名模块为 auto_gptq
推荐动作：建议阅读本 PR 的设计决策，特别是向后兼容策略（通过保留旧名称并使用 override），以及 min_capability 调整的考量。测试中移除了 2/3 比特覆盖，团队应考虑是否在文档中明确废弃说明。如果用户依赖 2/3 比特，应保留沟通渠道。

功能与动机

实现拆解

删除旧 GPTQ 配置：移除 vllm/model_executor/layers/quantization/gptq.py，该文件定义了 GPTQConfig 并支持 2/3/4/8 比特。由于 Marlin 内核仅支持 4/8 比特，且 Exllama 后端未积极维护 2/3 比特路径，因此直接丢弃，避免运行时静默失败。
重命名核心量化模块：将 gptq_marlin.py 移动并重命名为 auto_gptq.py。内部类重命名：GPTQMarlinConfig → AutoGPTQConfig，GPTQMarlinLinearMethod → AutoGPTQLinearMethod，GPTQMarlinMoEMethod → AutoGPTQMoEMethod。get_name() 返回 "auto_gptq"，get_min_capability() 下调至 60（因 Triton 后端可支持更低计算能力的硬件）。
添加自动路由机制：在 AutoGPTQConfig 中新增 override_quantization_method 类方法。当用户未指定量化方法或指定 gptq/gptq_marlin/auto_gptq 时，若 HF 配置包含 quant_method: gptq，则自动将其映射为 auto_gptq。旧名称 gptq 和 gptq_marlin 保留在 QuantizationMethods 字面量中，并通过 method_to_config 映射回 AutoGPTQConfig，确保向后兼容。
全局导入更新：修改所有引用 gptq_marlin 或 gptq 的地方，包括 vllm/model_executor/layers/quantization/__init__.py、linear.py、inc.py、moe_wna16.py、int_wna16.py、model.py（删除 gptq_marlin 从 overrides 列表但保留 auto_gptq），以及 ROCm 和 CI 配置。
测试适配与新增：新增 tests/quantization/test_auto_gptq.py 验证 auto_gptq 加载和推理。更新 test_gptq_dynamic.py、test_gptq_v2.py 移除对 GPTQLinearMethod 的依赖（因 2/3 比特模型不再支持）。更新 test_gptq_marlin.py 的 skipif 条件为检查 auto_gptq 支持。修复 test_configs.py 中预期 quant_type 为 auto_gptq。

关键文件：

vllm/model_executor/layers/quantization/auto_gptq.py（模块量化核心；类别 source；类型 rename-or-move；符号 AutoGPTQConfig, AutoGPTQLinearMethod, AutoGPTQMoEMethod, override_quantization_method）: 核心变更文件。原本为 gptq_marlin.py，重命名为 auto_gptq.py；类名更新，添加 override_quantization_method。
vllm/model_executor/layers/quantization/gptq.py（模块旧量化；类别 source；类型 deletion；符号 GPTQConfig, init, repr, get_name）: 彻底删除旧 GPTQ 配置文件和类，移除 2/3 比特支持。
vllm/model_executor/layers/quantization/utils/gptq_utils.py（模块工具函数；类别 source；类型 data-contract；符号 override_config）: 简化 override_config 函数，移除 GPTQConfig 分支，统一处理 AutoGPTQConfig。
vllm/model_executor/layers/quantization/__init__.py（模块量化路由；类别 source；类型 configuration）: 更新 QuantizationMethods 和 method_to_config 映射，添加 auto_gptq 并保留旧名称。
vllm/model_executor/layers/quantization/inc.py（模块 INC 兼容；类别 source；类型 data-contract）: Intel Neural Compressor 兼容性调整，替换 GPTQMarlin 为 AutoGPTQ，移除 GPTQ 回退路径。
tests/quantization/test_auto_gptq.py（模块测试；类别 test；类型 test-coverage；符号 test_auto_gptq_quantization_method, test_auto_gptq_config_get_name）: 新增测试文件，验证 auto_gptq 量化方法和配置名称。
vllm/config/model.py（模块配置管理；类别 source；类型 configuration）: 更新 _verify_quantization 中的 overrides 列表，将 gptq_marlin 替换为 auto_gptq。

关键符号：AutoGPTQConfig.init, AutoGPTQConfig.get_name, AutoGPTQConfig.get_min_capability, AutoGPTQConfig.from_config, AutoGPTQConfig.override_quantization_method, AutoGPTQLinearMethod, AutoGPTQMoEMethod, override_config, get_moe_quant_method, get_linear_quant_method, get_dynamic_override

关键源码片段

`vllm/model_executor/layers/quantization/auto_gptq.py`

核心变更文件。原本为 gptq_marlin.py，重命名为 auto_gptq.py；类名更新，添加 override_quantization_method。

class AutoGPTQConfig(QuantizationConfig):
    """Config class for AutoGPTQ quantization using Marlin kernels."""

    # (num_bits, is_sym) -> quant_type 映射表，仅支持 4 位和 8 位对称量化
    TYPE_MAP = {
        (4, True): scalar_types.uint4b8,
        (8, True): scalar_types.uint8b128,
    }

    @classmethod
    def override_quantization_method(
        cls,
        hf_quant_cfg: dict,
        user_quant: str | None,
    ) -> str | None:
        """
        自动将 HF 配置中的 `quant_method: gptq` 映射为 `auto_gptq`。

        如果用户指定了 `gptq`、`gptq_marlin` 或 `auto_gptq` 之一，
        并且 HF 配置是 gptq，则返回 `"auto_gptq"`，从而允许验证通过。
        """
        quant_method = hf_quant_cfg.get("quant_method", "").lower()
        if quant_method != "gptq":
            return None # 非 GPTQ 模型，不处理

        # 用户未指定或指定了兼容的名称，都返回 auto_gptq
        is_valid_user_quant = user_quant is None or user_quant in (
            "gptq",
            "gptq_marlin",
            "auto_gptq",
            "marlin",
        )
        if is_valid_user_quant:
            return cls.get_name() # "auto_gptq"
        return None

`vllm/model_executor/layers/quantization/utils/gptq_utils.py`

简化 override_config 函数，移除 GPTQConfig 分支，统一处理 AutoGPTQConfig。

def override_config(config: AutoGPTQConfig, prefix: str):
    """
    根据 module prefix 匹配 dynamic 规则，覆盖基类量化配置。
    现在直接操作 AutoGPTQConfig，不再区分 gptq 与 gptq_marlin 两条分支。
    """
    # 从 dynamic 字典中读取 bits 并覆盖
    weight_bits = get_dynamic_override(config, prefix, "bits", config.weight_bits)
    if isinstance(weight_bits, int):
        config.weight_bits = weight_bits

    group_size = get_dynamic_override(config, prefix, "group_size", config.group_size)
    if isinstance(group_size, int):
        config.group_size = group_size

    desc_act = get_dynamic_override(config, prefix, "desc_act", config.desc_act)
    if isinstance(desc_act, bool):
        config.desc_act = desc_act

    # 重新计算 pack_factor，使用整数除法代替 Fraction
    config.pack_factor = 32 // config.weight_bits

    # 只处理 AutoGPTQConfig，不再有 GPTQConfig 分支
    assert isinstance(config, AutoGPTQConfig)
    is_sym = get_dynamic_override(config, prefix, "sym", config.is_sym)
    if isinstance(is_sym, bool):
        config.is_sym = is_sym

    # 验证组合是否在 TYPE_MAP 中（仅 4 位或 8 位对称）
    if (config.weight_bits, config.is_sym) not in config.TYPE_MAP:
        raise ValueError(
            "Unsupported quantization config: "
            f"bits={config.weight_bits}, sym={config.is_sym}"
        )

    config.quant_type = config.TYPE_MAP[(config.weight_bits, config.is_sym)]

评论区精华

Review 中核心讨论包括：

向后兼容性：gemini-code-assist[bot] 指出移除 gptq 和 gptq_marlin 从 QuantizationMethods 会导致用户传入这些值时验证失败；作者随后保留了这些名称，并在 method_to_config 中映射到 AutoGPTQConfig。
Min Capability 调整：mgoin 质疑 get_min_capability 从 75 降为 60 的准确性，robertgshaw2-redhat 解释新类可运行 Marlin 或 Triton 内核，Triton 支持更低能力，因此调整正确。
2/3 比特支持移除：mgoin 和 wenhuach21 询问是否故意丢弃 2/3 比特支持，作者确认是有意为之（Marlin 不支持且 Exllama 未测试），但将来可能通过扩展 TYPE_MAP 或 Exllama 后端恢复。
override_quantization_method 必要性：robertgshaw2-redhat 建议移除该函数，作者解释需要它处理用户指定 auto_gptq 但 HF 配置为 gptq 的不匹配情形。
保留旧量化方法名称 (design): 作者在 init.py 中保留了这些名称，并保持 method_to_config 映射到 AutoGPTQConfig。
降低最低计算能力要求 (correctness): 作者接受并保留 60。
移除 2/3 比特 GPTQ 支持 (other): 已移除 2/3 比特支持，但作者表态愿意未来恢复。
override 方法必要性 (design): 保留 override_quantization_method。

风险与影响

风险：
- 向后兼容风险：虽然保留 gptq 和 gptq_marlin 作为输入参数，但 get_name() 返回 auto_gptq，任何依赖此字符串的外部代码可能需更新。model.py 中 overrides 列表顺序变化可能影响覆盖优先级。
- 功能减退风险：不再支持 2/3 比特 GPTQ 模型，持有此类权重的用户需改用旧版本或其他量化方式。
- 硬件兼容风险：min_capability 降至 60 可能允许更低计算能力的 GPU 加载，但 Marlin 内核实际需要 75，Triton 内核可能未在所有场景充分测试，存在性能下降或运行时错误风险。
- 测试覆盖不足：新增测试仅覆盖 4 比特模型，未测试动态配置、v2 格式、MoE 等场景；test_gptq_v2.py 中原 2 比特模型不再加载，但未补充等效的 4/8 比特 v2 测试。
- 全局导入修改风险：21 个文件涉及导入变更，任何遗漏可能导致导入错误；CI 早期发现 test_configs.py 预期值未更新，已修复。
影响：
- 用户影响：使用 --quantization gptq_marlin 的现有脚本仍可工作（自动映射到 auto_gptq），但建议用户迁移到 auto_gptq。2/3 比特 GPTQ 用户将无法直接加载，需转换或保留旧版本。
- 系统影响：模块数量减少，内部结构更清晰，未来扩展自动量化方法更简单。
- 团队影响：后续 GPTQ 相关开发集中在 auto_gptq.py，维护者需关注 Marlin 与 Triton 后端的正确路由。
- 风险标记：向后兼容风险, 功能减退（2/3-bit）, 硬件兼容风险, 测试覆盖不足, 全局导入修改风险

关联脉络

PR #37765 [Feature]: Consolidate GPTQ Quantization: 此 PR 的源起 issue，要求合并并重命名 GPTQ 量化模块。

#38288 [Quant] Consolidate GPTQ: rename gptq_marlin.py to auto_gptq.py

执行摘要

GPTQ 量化整合：重命名模块为 auto_gptq

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论