欢迎访问文稿网!

数据挖掘的过程和体系结构

范文之家 分享 时间: 加入收藏 我要投稿 点赞

数据挖掘的过程和体系结构

    10.6.2 数据挖掘的过程和体系结构

    一、数据挖掘过程

    数据挖掘大概可以分为问题定义、数据收集和预处理、数据挖掘算法的执行以及结果的解释和评价。

    (1)问题定义

    在数据挖掘过程中我们应该首先明确要发现何种知识,这是能否在大量的数据中发现我们感兴趣的信息的第一步,也是非常重要的一步。在问题定义过程中,数据挖掘人员一方面需要明确实际工作对数据挖掘的要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。

    (2)数据收集和预处理

    数据挖掘要使用大量的数据,这些数据是历史积累的结果,因此,这些数据组织形式并不一定适合进行数据挖掘,需要将原始数据进行提取与集成,分三个子步骤进行:数据选取、数据预处理和数据变换。

    数据选取的目的是确定发现任务的操作对象,即目标数据,就是在原始数据库中哪些是我们需要的,应该选取哪些数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便用于神经网络)等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特征或变量个数。数据准备是否做得充分将影响到数据挖掘的效率和准确性。

    (3)数据挖掘

    该阶段是数据挖掘的核心步骤,数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的。确定了挖掘任务后,就要决定使用什么样的算法。选择实现算法有两个考虑因素:一是根据所用数据的特点来选择合适的算法,不同的数据有不同的特点,它们对算法的效率有重要的影响;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法)。而有的用户只是希望获取预测准确度尽可能高的预测型知识,并不在意获取的知识是否易于理解。关于数据挖掘所采用的一些常用算法,在后面将给出详细的描述。

    (4)结果解释和评估

    数据挖掘阶段发现出来的模式,可能是有实际意义和实用价值的,也有可能不能准确反映数据的真实意义,所以需要评估。经过评估,存在冗余或无关的模式时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退到前一阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等。

    影响数据挖掘质量有两个重要因素:一是所采用的数据挖掘技术的有效性和效率;二是数据挖掘所使用数据的质量和数据量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的效果不会好,甚至可能影响到挖掘的结果。

    整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘过程中发现选择的数据不太好,或是使用的挖掘技术产生不了期望的结果,这时用户需要重复先前的过程,甚至重新开始。

    二、数据挖掘体系结构

    根据数据挖掘的过程,整个数据挖掘系统可以采用三层的C/S结构,如图10-19所示。其中,第一层为用户界面,位于系统的客户端;第二层为数据挖掘的引擎,它是数据挖掘系统的核心,位于系统的应用服务器端;第三层为数据库与数据仓库,位于数据服务器端。

    img205

    

    图10-19

    (1)用户界面

    这个模块是用户与数据挖掘系统交互的界面,用户的请求通过界面传递给系统,同时系统挖掘的结果也是通过该模块呈现给用户。该模块一般提供两种接口,用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。当然该模块还应当提供必要编程API,使用户可以对算法进行必要的改进。此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。

    (2)数据挖掘引擎

    数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,应该能够存放已经实现的挖掘算法和预先定义的和经过挖掘后发现的知识。数据挖掘系统可以独立存在,通常数据挖掘产品都提供访问数据仓库、数据库、平面文件以及其他外部数据源的接口,利用这些接口,可以通过多种渠道获得所需要的数据。

    (3)数据库与数据仓库

    该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。

221381
领取福利

微信扫码领取福利

微信扫码分享