实现拆解为多个模块：1. 在 nano_nemotron_vl.py 中，移除 copy 导入，将 supports_video 硬编码为 True，引入 sound_config 属性替代 audio_extractor，使用 num_tokens_per_image 替换 feature_size_cache。2. 在 parakeet.py 中，将 audio_length 方法改为静态，直接从配置计算长度。3. 在 radio.py 中，移除 _video_embedder_loaded 检查以简化视频支持逻辑。4. 在 transformers_utils/configs/parakeet.py 中，扩展 ExtractorConfig 以包含 hop_length。5. 在 tests/models/registry.py 中，添加 NemotronH_Nano_VL_V2 到 HF 示例模型注册表。6. 在 tests/models/utils.py 中，修改 dummy_hf_overrides 以正确处理 text_config 覆盖。

文件	模块	状态	重要度
`vllm/model_executor/models/nano_nemotron_vl.py`	model_executor	modified	8.0
`vllm/model_executor/models/parakeet.py`	model_executor	modified	5.0
`vllm/model_executor/models/radio.py`	model_executor	modified	4.0
`tests/models/registry.py`	testing	modified	3.0

执行摘要

本 PR 修复了 Nano Nemotron VL 多模态模型因近期代码变更引入的两个关键回归问题：通过避免深拷贝 VllmConfig 和元数据热路径中的处理器调用，解决了并发请求下的崩溃；同时重构音频视频支持逻辑，并扩展测试注册表以增强未来稳定性。这是一个重要的 bugfix，直接影响多模态模型的可用性和性能。

功能与动机

由于 PR #37467 和 #34789 的变更，Nano Nemotron VL 模型在高压并发场景下出现配置深拷贝失败和 tokenizer 运行时错误。PR body 明确指出：“Fixes two recent Nano Nemotron VL regressions”，目标是恢复模型稳定运行，并预防类似问题。具体动机包括：

深拷贝失败：自 #37467 后，get_mamba_state_shape_from_config() 在 worker 启动时运行，深拷贝活参数（如 BasevLLMParameter）导致 torch.nn.Parameter.__deepcopy__ 不匹配。
Tokenizer 错误：避免在 metadata hot paths 中使用 get_hf_processor()，以防止 RuntimeError: Already borrowed，这可能由 #34789 暴露。
缓存清理：移除 hacky 的 feature_size_cache，替换为更可靠的 num_tokens_per_image。
测试增强：添加模型到 HF 示例模型注册表，为未来回归测试提供基础。

实现拆解

主要改动涉及多个文件，按模块梳理：

核心模型 (vllm/model_executor/models/nano_nemotron_vl.py)：
- 移除 import copy，停止深拷贝 VllmConfig。
- 将 supports_video 从动态检查硬编码为 True，因为 v2/v3 模型均支持视频。
- 引入 sound_config 属性替代 audio_extractor，统一音频支持检查。
- 使用 num_tokens_per_image 替换 feature_size_cache，简化动态 tiler 逻辑。
- 修改 _get_mm_fields_config 和 _get_prompt_updates 等方法，避免调用 get_hf_processor()。
音频处理 (vllm/model_executor/models/parakeet.py)：
- 将 audio_length 方法改为静态方法 audio_length(raw_config, audio_tokens)，直接从配置计算长度，避免依赖处理器实例。
视频支持 (vllm/model_executor/models/radio.py)：
- 移除 _video_embedder_loaded 检查和相关状态管理，简化视频嵌入逻辑，假定权重已加载。
配置扩展 (vllm/transformers_utils/configs/parakeet.py)：
- 在 ExtractorConfig 中添加 hop_length 字段，支持从 HF 配置解析音频参数。
测试注册表 (tests/models/registry.py)：
- 添加 NemotronH_Nano_VL_V2 到 _MULTIMODAL_EXAMPLE_MODELS，指定最大模型长度、视频配置和文本覆盖模式。
测试工具 (tests/models/utils.py)：
- 修改 dummy_hf_overrides 函数，允许覆盖 text_config 字段，支持多模态测试模型的最小层配置。

评论区精华

review 讨论中的关键交锋：

supports_video 的正确性：

tomeras91 询问：“Does this model really always support video?”
netanel-haber 回复：“Yes, v2 and v3 both support video by definition”
这确认了硬编码决策是基于模型定义的，属于设计权衡。
音频支持重构：

tomeras91 指出：“I see audio_extractor is only ever used to check if it is not None... Is audio_length() also available from the config?”
作者后续提交中实现了 sound_config 属性，并更新相关逻辑，统一了音频支持检查，避免了热路径中的处理器调用。
测试策略优化：

DarkLight1337 建议：“Let's just define a separate test file for the model rather than adding it to the common tests”
作者采纳该建议，调整为模型特定测试，避免污染通用测试工具，提升代码可维护性。

风险与影响

技术风险：

配置深拷贝移除：停止深拷贝 VllmConfig 可能影响其他依赖此行为的代码路径，需确保无副作用或未引入新错误。
音频逻辑变更：使用 sound_config 替代 audio_extractor 可能引入兼容性问题，特别是对于旧版模型配置，需验证音频处理功能。
测试扩展影响：添加模型到注册表可能增加 CI 执行时间和资源消耗，但通过最小化层数配置减轻负担。
缓存移除性能：移除 feature_size_cache 可能略增动态 tiler 的计算开销，但使用 num_tokens_per_image 更直接可靠。

影响分析：

用户影响：修复了多模态模型在并发请求（如 -dp=8 + 128 num concurrent requests）下的崩溃问题，提升稳定性和用户体验。
系统影响：优化元数据热路径性能，避免不必要的处理器调用和深拷贝操作，可能降低延迟和提高吞吐量。
团队影响：增强回归测试覆盖，减少未来类似回归问题的发生；代码重构使音频、视频支持逻辑更清晰，便于维护和扩展。

关联脉络

本 PR 直接关联两个引入回归的 PR：

#37467：导致 get_mamba_state_shape_from_config() 在 worker 启动时运行，引发深拷贝失败。
#34789：暴露 tokenizer RuntimeError: Already borrowed，促使避免 get_hf_processor() 调用。
从同仓库近期历史 PR 看，多模态模型支持是持续演进方向（如 PR 38306 新增 Phi4 模型、PR 38510 新增 TeleChat3 模型），表明 vLLM 在多模态领域的积极扩展。本 PR 作为关键维护步骤，修复了近期变更带来的不稳定因素，确保多模态功能稳健运行，并强化测试基础设施，为后续模型集成奠定基础。

支持 Prhub ♥

#38655 Fix Nano Nemotron VL regressions

执行摘要

修复 Nano Nemotron VL 模型的两个回归问题，避免配置深拷贝和 tokenizer 错误。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论