#43077 [Model Refactoring] Rename deepseek_v4.py to model.py [4/N]

原始 PR 作者 WoosukKwon 合并时间 2026-05-19 16:12 文件变更 8 提交数 5 评论 0 代码增减 +8 / -8

执行摘要

重命名 DeepSeek V4 核心文件以规范化命名

PR body 中说明：Rename deepseek_v4.py to model.py and deepseek_v4_mtp.py to mtp.py。目的是统一 DeepSeek V4 模型模块的文件命名，使其与其他模型（如 model.py、mtp.py）保持一致，并支持后续的硬件隔离重构。

本 PR 为纯重构，无功能变更，建议快速合并。值得关注的是 DeepSeek V4 模型架构正逐步向硬件隔离的模块化方向发展（参考 #43004、#43039），建议保持该趋势。

讨论亮点

本 PR 无人工 review 评论，仅有 gemini-code-assist[bot] 自动评论表示无反馈。无实质讨论。

实现拆解

按照以下步骤实施：

重命名 NVIDIA 平台主文件：将 vllm/models/deepseek_v4/nvidia/deepseek_v4.py 重命名为 model.py，deepseek_v4_mtp.py 重命名为 mtp.py。文件内容不变。
更新包入口导入：在 vllm/models/deepseek_v4/__init__.py 中，将 from .nvidia.deepseek_v4 import ... 和 from .nvidia.deepseek_v4_mtp import ... 改为 from .nvidia.model import ... 和 from .nvidia.mtp import ...；AMD 分支相应更新。
更新 AMD 符号链接：删除旧的 amd/deepseek_v4.py 和 amd/deepseek_v4_mtp.py，新建 amd/model.py 和 amd/mtp.py 分别指向 ../nvidia/model.py 和 ../nvidia/mtp.py。
更新测试导入：在 tests/models/test_deepseek_v4_mega_moe.py 中将导入路径更新为新名称。

文件	模块	状态	重要度
`vllm/models/deepseek_v4/__init__.py`	模型层	modified	5.48
`vllm/models/deepseek_v4/nvidia/mtp.py`	模型层	renamed	5.51
`vllm/models/deepseek_v4/nvidia/model.py`	模型层	renamed	4.56
`vllm/models/deepseek_v4/amd/deepseek_v4.py`	模型层	removed	4.23
`vllm/models/deepseek_v4/amd/deepseek_v4_mtp.py`	模型层	removed	4.23
`vllm/models/deepseek_v4/amd/model.py`	模型层	added	4.43
`vllm/models/deepseek_v4/amd/mtp.py`	模型层	added	4.43
`tests/models/test_deepseek_v4_mega_moe.py`	测试	modified	3.83

关键源码片段

vllm/models/deepseek_v4/__init__.py data-contract

包入口文件，更新了两个平台的导入路径，是确保模块可导入的关键。

# SPDX-License-Identifier: Apache-2.0
'''DeepSeek V4 model — hardware-isolated entry point.
The actual implementation lives under nvidia/ and amd/; this module
picks the right one for the current platform and re-exports the public
classes used by the model registry and quantization config lookup.
'''
from typing import TYPE_CHECKING
from vllm.platforms import current_platform
from .quant_config import DeepseekV4FP8Config

# 根据平台选择对应实现，NVIDIA 为 mypy 静态默认，AMD 在运行时覆盖
if TYPE_CHECKING or not current_platform.is_rocm():
    from .nvidia.model import DeepseekV4ForCausalLM
    from .nvidia.mtp import DeepSeekV4MTP
else:
    from .amd.model import DeepseekV4ForCausalLM # type: ignore[assignment]
    from .amd.mtp import DeepSeekV4MTP # type: ignore[assignment]
__all__ = ['DeepSeekV4MTP', 'DeepseekV4FP8Config', 'DeepseekV4ForCausalLM']

vllm/models/deepseek_v4/nvidia/mtp.py rename-or-move

多 token 预测模块文件，其导入来自主模型文件，反映了重命名后的依赖关系。

# （文件头部注释和标准库导入省略）
from vllm.platforms import current_platform
from vllm.sequence import IntermediateTensors

# 关键变更：导入从 .deepseek_v4 改为 .model，确保 MTP 模块能找到重命名后的主模型组件
from .model import (
    DeepseekV4DecoderLayer,
    make_deepseek_v4_expert_params_mapping,
)

logger = init_logger(__name__)
# MoE expert scales are fused into per-layer w13/w2 tensors. The exact
# parameter suffix depends on which FusedMoE method handles the experts
_EXPERT_SCALE_RE = re.compile(r'\.experts\.\d+\.w[123]\.scale$')

class DeepSeekV4MultiTokenPredictorLayer(nn.Module):
    def __init__(self, vllm_config: VllmConfig, topk_indices_buffer: torch.Tensor, prefix: str, aux_stream_list: list[torch.cuda.Stream] | None = None) -> None:
        super().__init__()
        assert vllm_config.speculative_config is not None
        config = vllm_config.speculative_config.draft_model_config.hf_config
        self.config = config
        quant_config = vllm_config.quant_config

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

变更风险极低。核心是文件重命名和导入更新，不涉及逻辑改动。唯一可能的风险是外部直接引用旧路径的代码会失效，但 vLLM 官方推荐使用包路径，不依赖内部文件名。测试覆盖确保了回归安全。

影响范围仅限于 DeepSeek V4 模块内部的文件组织和导入路径。对用户 API（如模型名称、配置参数）无影响。对系统性能无影响。对团队代码理解有正面作用：统一的命名规范降低了后续新增硬件后端的认知成本。

低风险仅文件重命名完全向后兼容

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：重命名 DeepSeek V4 核心文件以规范化命名
推荐动作：本 PR 为纯重构，无功能变更，建议快速合并。值得关注的是 DeepSeek V4 模型架构正逐步向硬件隔离的模块化方向发展（参考 #43004、#43039），建议保持该趋势。

功能与动机

实现拆解

按照以下步骤实施：

重命名 NVIDIA 平台主文件：将 vllm/models/deepseek_v4/nvidia/deepseek_v4.py 重命名为 model.py，deepseek_v4_mtp.py 重命名为 mtp.py。文件内容不变。
更新包入口导入：在 vllm/models/deepseek_v4/__init__.py 中，将 from .nvidia.deepseek_v4 import ... 和 from .nvidia.deepseek_v4_mtp import ... 改为 from .nvidia.model import ... 和 from .nvidia.mtp import ...；AMD 分支相应更新。
更新 AMD 符号链接：删除旧的 amd/deepseek_v4.py 和 amd/deepseek_v4_mtp.py，新建 amd/model.py 和 amd/mtp.py 分别指向 ../nvidia/model.py 和 ../nvidia/mtp.py。
更新测试导入：在 tests/models/test_deepseek_v4_mega_moe.py 中将导入路径更新为新名称。

关键文件：

vllm/models/deepseek_v4/__init__.py（模块模型层；类别 source；类型 data-contract）: 包入口文件，更新了两个平台的导入路径，是确保模块可导入的关键。
vllm/models/deepseek_v4/nvidia/mtp.py（模块模型层；类别 source；类型 rename-or-move）: 多 token 预测模块文件，其导入来自主模型文件，反映了重命名后的依赖关系。
vllm/models/deepseek_v4/nvidia/model.py（模块模型层；类别 source；类型 rename-or-move）: 主模型文件，重命名但不涉及内容变更，是本次操作的核心目标之一。
vllm/models/deepseek_v4/amd/deepseek_v4.py（模块模型层；类别 source；类型 deletion）: 旧的 AMD 符号链接，指向 NVIDIA 旧名称，现已删除。
vllm/models/deepseek_v4/amd/deepseek_v4_mtp.py（模块模型层；类别 source；类型 deletion）: 旧的 AMD 符号链接，指向 NVIDIA 旧名称，现已删除。
vllm/models/deepseek_v4/amd/model.py（模块模型层；类别 source；类型 data-contract）: 新建的 AMD 符号链接，指向 ../nvidia/model.py。
vllm/models/deepseek_v4/amd/mtp.py（模块模型层；类别 source；类型 data-contract）: 新建的 AMD 符号链接，指向 ../nvidia/mtp.py。
tests/models/test_deepseek_v4_mega_moe.py（模块测试；类别 test；类型 test-coverage）: 测试文件，更新导入路径以匹配新命名，确保 CI 通过。

关键符号：未识别

关键源码片段

`vllm/models/deepseek_v4/init.py`

包入口文件，更新了两个平台的导入路径，是确保模块可导入的关键。

# SPDX-License-Identifier: Apache-2.0
'''DeepSeek V4 model — hardware-isolated entry point.
The actual implementation lives under nvidia/ and amd/; this module
picks the right one for the current platform and re-exports the public
classes used by the model registry and quantization config lookup.
'''
from typing import TYPE_CHECKING
from vllm.platforms import current_platform
from .quant_config import DeepseekV4FP8Config

# 根据平台选择对应实现，NVIDIA 为 mypy 静态默认，AMD 在运行时覆盖
if TYPE_CHECKING or not current_platform.is_rocm():
    from .nvidia.model import DeepseekV4ForCausalLM
    from .nvidia.mtp import DeepSeekV4MTP
else:
    from .amd.model import DeepseekV4ForCausalLM # type: ignore[assignment]
    from .amd.mtp import DeepSeekV4MTP # type: ignore[assignment]
__all__ = ['DeepSeekV4MTP', 'DeepseekV4FP8Config', 'DeepseekV4ForCausalLM']

`vllm/models/deepseek_v4/nvidia/mtp.py`

多 token 预测模块文件，其导入来自主模型文件，反映了重命名后的依赖关系。

# （文件头部注释和标准库导入省略）
from vllm.platforms import current_platform
from vllm.sequence import IntermediateTensors

# 关键变更：导入从 .deepseek_v4 改为 .model，确保 MTP 模块能找到重命名后的主模型组件
from .model import (
    DeepseekV4DecoderLayer,
    make_deepseek_v4_expert_params_mapping,
)

logger = init_logger(__name__)
# MoE expert scales are fused into per-layer w13/w2 tensors. The exact
# parameter suffix depends on which FusedMoE method handles the experts
_EXPERT_SCALE_RE = re.compile(r'\.experts\.\d+\.w[123]\.scale$')

class DeepSeekV4MultiTokenPredictorLayer(nn.Module):
    def __init__(self, vllm_config: VllmConfig, topk_indices_buffer: torch.Tensor, prefix: str, aux_stream_list: list[torch.cuda.Stream] | None = None) -> None:
        super().__init__()
        assert vllm_config.speculative_config is not None
        config = vllm_config.speculative_config.draft_model_config.hf_config
        self.config = config
        quant_config = vllm_config.quant_config

评论区精华

本 PR 无人工 review 评论，仅有 gemini-code-assist[bot] 自动评论表示无反馈。无实质讨论。

暂无高价值评论线程

风险与影响

风险：变更风险极低。核心是文件重命名和导入更新，不涉及逻辑改动。唯一可能的风险是外部直接引用旧路径的代码会失效，但 vLLM 官方推荐使用包路径，不依赖内部文件名。测试覆盖确保了回归安全。
影响：影响范围仅限于 DeepSeek V4 模块内部的文件组织和导入路径。对用户 API（如模型名称、配置参数）无影响。对系统性能无影响。对团队代码理解有正面作用：统一的命名规范降低了后续新增硬件后端的认知成本。
风险标记：低风险, 仅文件重命名, 完全向后兼容

关联脉络

PR #43004 [Model Refactoring] Migrate DeepSeek V4 to vllm/models/ [1/N]: 同一 DeepSeek V4 模型重构系列的前序 PR，建立了硬件隔离目录结构。
PR #43039 [Model Refactoring] Move DeepSeek V4 layers to models/deepseek_v4/ [2/N]: 同一系列的第 2 步，将图层文件移动到 models/deepseek_v4/ 下。

#43077 [Model Refactoring] Rename deepseek_v4.py to model.py [4/N]

执行摘要

重命名 DeepSeek V4 核心文件以规范化命名

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论