#39901 FIX: support language_model.backbone naming in NemotronH Nano VL quantization config

vllm-project/vllm · 作者 danielafrimi · 合并时间 2026-04-15 21:49

分析状态已生成

文件变更 1提交数 1 · 评论 0

代码增减 +7 / -0

bugfix v1 model quantization multi-modality

执行摘要

修复 NemotronH Nano VL 模型量化配置中路径映射缺失导致的运行时查找失败。

根据PR描述，使用ModelOpt量化的模型可能在其config.json的quantized_layers中使用language_model.backbone.layers.*路径，但vLLM内部通过NemotronHForCausalLM的WeightsMapper将backbone重命名为model。这种不匹配导致_resolve_quant_algo在运行时查找失败，需要添加映射来对齐量化配置路径与现有的权重名称重映射。

该PR值得快速浏览，以了解vLLM如何处理量化配置与权重命名的对齐问题。关注WeightsMapper在模型类中的使用模式，这对于支持外部量化工具生成的模型有参考价值。

讨论亮点

reviewer tomeras91简单批准（"LGTM"），gemini-code-assist[bot]确认变更内容无误。没有争议或深入讨论，表明这是一个直接且必要的修复。

实现拆解

导入WeightsMapper：在vllm/model_executor/models/nano_nemotron_vl.py中，从vllm.model_executor.models.utils导入WeightsMapper类，为后续映射定义提供基础。
定义hf_to_vllm_mapper：在NemotronH_Nano_VL_V2类中添加类属性hf_to_vllm_mapper，使用WeightsMapper实例化，并设置orig_to_new_prefix字典，将"language_model.backbone"映射为"language_model.model"。这确保了量化配置中的路径与内部权重命名一致。
影响分析：此映射仅影响量化配置解析，不改变模型权重加载逻辑，因为权重映射已在NemotronHForCausalLM中处理。没有测试或配置配套改动，因为这是针对特定模型量化场景的修复。

文件	模块	状态	重要度
`vllm/model_executor/models/nano_nemotron_vl.py`	模型执行器	modified	5.44

vllm/model_executor/models/nano_nemotron_vl.py data-contract

唯一变更文件，为 NemotronH_Nano_VL_V2 类添加 hf_to_vllm_mapper 以修复量化配置路径映射问题。

from vllm.model_executor.models.utils import (
    WeightsMapper, # 新增导入：用于定义权重和配置路径的映射器
    init_vllm_registered_model,
    maybe_prefix,
)

# ...

@MULTIMODAL_REGISTRY.register_processor(
    NanoNemotronVLMultiModalProcessor,
    info=NanoNemotronVLProcessingInfo,
    dummy_inputs=NanoNemotronVLDummyInputsBuilder,
)
class NemotronH_Nano_VL_V2(
    nn.Module, HasInnerState, IsHybrid, SupportsMultiModal, SupportsMultiModalPruning
):
    requires_sequential_video_encoding = True
    """Temporarily needed for dynamic res video w/ conv3d, doesn't support bs>1 yet"""

    hf_to_vllm_mapper = WeightsMapper( # 新增类属性：定义从Hugging Face格式到vLLM内部格式的映射
        orig_to_new_prefix={
            "language_model.backbone": "language_model.model", # 将量化配置中的backbone路径映射为model，以匹配内部权重重命名
        },
    )

    @classmethod
    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
        # ... 原有方法保持不变

关键符号

NemotronH_Nano_VL_V2.hf_to_vllm_mapper

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低：

回归风险：仅添加映射，不修改现有逻辑，但需确保映射路径正确，否则可能导致量化配置解析失败。
兼容性：仅影响使用ModelOpt量化的NemotronH_Nano_VL_V2模型，对其他模型无影响。
性能与安全：无性能或安全影响。

影响范围：仅限于使用ModelOpt量化且配置路径为language_model.backbone的NemotronH_Nano_VL_V2模型。影响程度：修复了量化配置解析失败问题，使这些模型能在vLLM中正常加载和推理，提升了模型兼容性。对用户和系统无负面影响。

配置映射缺失

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复NemotronH Nano VL模型量化配置中路径映射缺失导致的运行时查找失败。
推荐动作：该PR值得快速浏览，以了解vLLM如何处理量化配置与权重命名的对齐问题。关注WeightsMapper在模型类中的使用模式，这对于支持外部量化工具生成的模型有参考价值。

功能与动机

实现拆解

导入WeightsMapper：在vllm/model_executor/models/nano_nemotron_vl.py中，从vllm.model_executor.models.utils导入WeightsMapper类，为后续映射定义提供基础。
定义hf_to_vllm_mapper：在NemotronH_Nano_VL_V2类中添加类属性hf_to_vllm_mapper，使用WeightsMapper实例化，并设置orig_to_new_prefix字典，将"language_model.backbone"映射为"language_model.model"。这确保了量化配置中的路径与内部权重命名一致。
影响分析：此映射仅影响量化配置解析，不改变模型权重加载逻辑，因为权重映射已在NemotronHForCausalLM中处理。没有测试或配置配套改动，因为这是针对特定模型量化场景的修复。

关键文件：

vllm/model_executor/models/nano_nemotron_vl.py（模块模型执行器；类别 source；类型 data-contract；符号 NemotronH_Nano_VL_V2, hf_to_vllm_mapper）: 唯一变更文件，为NemotronH_Nano_VL_V2类添加hf_to_vllm_mapper以修复量化配置路径映射问题。

关键符号：NemotronH_Nano_VL_V2.hf_to_vllm_mapper

关键源码片段

`vllm/model_executor/models/nano_nemotron_vl.py`

唯一变更文件，为NemotronH_Nano_VL_V2类添加hf_to_vllm_mapper以修复量化配置路径映射问题。

from vllm.model_executor.models.utils import (
    WeightsMapper, # 新增导入：用于定义权重和配置路径的映射器
    init_vllm_registered_model,
    maybe_prefix,
)

# ...

@MULTIMODAL_REGISTRY.register_processor(
    NanoNemotronVLMultiModalProcessor,
    info=NanoNemotronVLProcessingInfo,
    dummy_inputs=NanoNemotronVLDummyInputsBuilder,
)
class NemotronH_Nano_VL_V2(
    nn.Module, HasInnerState, IsHybrid, SupportsMultiModal, SupportsMultiModalPruning
):
    requires_sequential_video_encoding = True
    """Temporarily needed for dynamic res video w/ conv3d, doesn't support bs>1 yet"""

    hf_to_vllm_mapper = WeightsMapper( # 新增类属性：定义从Hugging Face格式到vLLM内部格式的映射
        orig_to_new_prefix={
            "language_model.backbone": "language_model.model", # 将量化配置中的backbone路径映射为model，以匹配内部权重重命名
        },
    )

    @classmethod
    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
        # ... 原有方法保持不变

评论区精华

reviewer tomeras91简单批准（"LGTM"），gemini-code-assist[bot]确认变更内容无误。没有争议或深入讨论，表明这是一个直接且必要的修复。

暂无高价值评论线程

风险与影响

风险：风险较低：
回归风险：仅添加映射，不修改现有逻辑，但需确保映射路径正确，否则可能导致量化配置解析失败。
兼容性：仅影响使用ModelOpt量化的NemotronH_Nano_VL_V2模型，对其他模型无影响。
性能与安全：无性能或安全影响。
影响：影响范围：仅限于使用ModelOpt量化且配置路径为language_model.backbone的NemotronH_Nano_VL_V2模型。影响程度：修复了量化配置解析失败问题，使这些模型能在vLLM中正常加载和推理，提升了模型兼容性。对用户和系统无负面影响。
风险标记：配置映射缺失

关联脉络

PR #39862 fix online fp8 for MiniCPM models: 同为模型特定量化修复，涉及量化配置与模型结构的对齐问题。
PR #38192 [Quantization][Autoround][CPU] Add W4A16 Support: 涉及量化支持扩展，本PR修复量化配置路径映射，属于量化生态的兼容性改进。

支持 Prhub ♥

#39901 FIX: support language_model.backbone naming in NemotronH Nano VL quantization config

执行摘要

修复 NemotronH Nano VL 模型量化配置中路径映射缺失导致的运行时查找失败。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

关键源码片段

`vllm/model_executor/models/nano_nemotron_vl.py`

评论区精华

风险与影响

关联脉络

参与讨论