论文部分内容阅读
0 引言
随着商务、科技和政府等事务的信息化步伐加快,数据的形成速度也在加快,形成瞬间数据的爆炸性增长势态。与此同时,人们收集数据的能力也在迅速提高。现在,internet已经真正成为了一个全球的信息系统,人们都已经淹没在了数据和信息的海洋中,都在这数据的汪洋中寻找有利的信息,寻找商机,寻找利润增长点。那么,人们在海量数据中又如何才能快速获得有效数据信息呢,这就需要采用智能处理方式来发现数据中的知识,也就是要采用数据挖掘的技术来处理发现数据中隐含的模式,隐含的知识。
数据库数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。该定义包含着以下几个含义:① 被处理的数据必须是真实的、大量的;② 发现的是有用的,是用户感兴趣的知识;③ 被发现的知识要可接受、可理解、可运用;④ 被发现的知识并不要求具有通用性,而是面向特定问题的有用知识。数据挖掘还被认为是一种商业信息处理技术,主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。没有数据挖掘技术的发展,数据库中的大量数据不能得到充分分应用,不能发现数据库中数据所隐含的有用知识。那么,数据库中的数据不管有多么的完整,量有多么的大,只要不能提供给经营决策,不能带来经济效益,数据最终只能是“垃圾数据”。
数据挖掘是一个涉及到多学科的领域。这些相关领域学科包括数据库技术、机器学习、模式识别、统计学、模式识别、信息检索、神经网络、人工智能等。数据挖掘已经成为了目前国际上数据库和信息决策系统最前沿的研究方向之一。与此同时,适合于各种环境,各种应用的数据挖掘算或改进算法层出不穷,可谓复杂至极。本文就目前较为权威的,应用较广泛的挖掘算法进行分析,目的在于今后面对具体的数据,具体的目的,如何灵活选择可行的挖掘算法。
数据挖掘的任务可以大体分为:分类、聚类、关联、回归、时间序列分析、序列发现、预测等几个方面。其中,分类、聚类在信用评估中应用最为广泛。
1 分类算法
分类分析也就是利用同质实物所具有的共同特性对某一个例进行归类处理。在数据挖掘中,通过对训练集中的数据分析,得到每个类同质记录的准确描述并建立分析模型或挖掘出分类规则,而后用这些获得分类规则对新的数据记录进行分类处理。在分类分析中,有基于统计的算法、基于距离的算法、基于决策树的算法、基于神经网络的算法还有基于规则的算法等。回归就是基于统计的算法的一种,用于实现根据输入值估计一个输出值,对数据集进行建模,并用某一公式拟合数据,实现对数据的分割和输出预测[2]。K最邻近是一种常用的基于距离度量的分类方法,适用于训练集中每个元组都包含期望类标记的情况。基于决策树的算法、基于神经网络的算法是常用的分类算法。
1.1 决策树法。决策树是采用自上而下,逐步分割的归纳学习方式构建而成的倒立的树,常被用于分类学习。非叶子节点为条件节点,对应着某个属性上的测试,其下的每个分支代表着该属性上的一个测试输出。叶子节点代表着元组的所属类别。
决策树模型被用于分类预测时。可以直接单独使用,也可以与其他模型相结合使用,后者能实现更为准确的分类预测。例如,可以直接使用决策树模型来实现市场营销、风险管理等方面的管理决策制定。又如,先采用构建浅层次的决策树的方式来实现对样本集初步的分割,目的是得到同质小样本集;而后,与其它数据挖掘模型相结合进一步建立更为准确的分组。
构建决策树算法模型的核心是选择合适的测试属性用以分割样本集。在处理这一核心问题上,采用不同的技术将形成不同的具体的决策树算法模型。应用比较广泛的决策树算法模型有:ID3、C4.5、C5.0、CART。ID3是Quinlan于1986年提出的基于信息熵的决策树分类算法,C4.5是Quinlan于1993年提出的ID3改进版的算法,C5.0主要针对大数据集的分类,与C4.5相比,前者在生成规则方面作了改进,在运行效率上要比后者快。CART是一种生成二叉树的决策树算法,它同样是采用信息熵为选择分割属性的度量标准。决策树算法除了上面提到的四种,还存在多种改进的算法,但在分割属性的选择方式上大都采用“贪婪算法”。
1.2 神经网络。神经网络是一组相互连接的由多个节点构成的有向图,是模拟智能动物的脑神经认知事物的功能而建立的一种网络学习模型。神经网络模型的建模过程是非线性的,属于梯度下降算法。支持信息的并行处理,在模式识别与分类、识别滤波、自动控制、预测等方面都有广泛的应用。
神经网络的结构中有两个重要的组成元素:节点、连接。节点对应着智能动物的神经元,而连接则对应神经元之间的联系。下级神经元的输出值y。
W为相邻层次节点联系连接的权重;x为前一层节点的输出;θ为单元p的偏倚,偏倚充当阀值,用于改变单元的活性;y为单元p的输出,其中
为激励函数,也称为挤压函数、输出变换函数或传递函数。常见的激励函数有线性激励函数、阀值或阶段激励函数、双曲线激励函数、高斯激励函数等多种形式。为了模拟智能动物认知活动中神经元的非线性特性,激励函数更多的是采用S形(Sigmoid)函数,形式如下:
神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。其最大的缺点是“黑箱”性,难以理解网络的学习和决策过程。
2 聚类分析
聚类分析与分类有相同点,也有不同点。相同的是,都是将数据进行分组;不同的是,聚类分析处理的数据对象的类是未知的。聚类分析就是将对象集合分组为由类似的对象组成的多个簇的过程。聚类的算法有层次算法、划分算法。
2.1 层次方法。层次方法聚类是将数据对象组成一棵聚类树。根据处理方式是自顶向下还是自底向上,层次聚类方法可以进一步分为凝聚与分裂。无论是凝聚还是分裂都存在前一步不可修正性。
BIRCH方法通过集成层次聚类和其他聚类算法来对大量数值数据进行聚类。层聚类用于出事的微聚类,其他的方法,如迭代划分用于宏聚类。客服了凝聚聚类方法面临的可伸缩性,前一步工作不能撤销的问题。
2.2 基于密度的方法。根据邻域对象的密度生成簇,OPTICS是一种基于密度的方法,它生成的数据聚类结构的一个增广矩序,该序代表数据的基本密度的聚类结构。
2.3 基于网格的方法。这种方法采用一个多分辨率的网格数据结构。将空间量化为有限数目的单元,这些单元形成了网格结构,所有聚类分析都在网格上进行。这种方法主要优点是:处理速度快,它的处理时间仅依赖于量化空间中每一维上的单元数目,却独立于数据的数目。常用的算法有STING、WAVECLUSTER和CLIQUE。
3 结论
随着数据量的增长,数据库系统的广泛应用,数据挖掘技术的研究越来越深入。各类算法都得到了发展或扩展。但是,从整体上看,各种算法都有一定的优缺点,都有适用范围,都有局限性。因此,采用单一方法难以得到理想的知识,应该有机组合,根据各种算法的优缺点进行互补性的选择,加以组合,加以改进才能运用好数据挖掘技术。
参考文献:
[1]Jianwei Han Micheline Kamber著,《数据挖掘概念与技术》,机械工业出版社,2008年,12月,第1版.
[2]王政霞,基于统计方法的数据挖掘算法研究,《湖北民族学院学报(自然科学版)》,2005年,3月,第23卷,第1期.
[3]田飞,简谈数据挖掘算法,《科技咨询导报》,中国地质大学研究生院资源学院,2007年,NO.29.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”
随着商务、科技和政府等事务的信息化步伐加快,数据的形成速度也在加快,形成瞬间数据的爆炸性增长势态。与此同时,人们收集数据的能力也在迅速提高。现在,internet已经真正成为了一个全球的信息系统,人们都已经淹没在了数据和信息的海洋中,都在这数据的汪洋中寻找有利的信息,寻找商机,寻找利润增长点。那么,人们在海量数据中又如何才能快速获得有效数据信息呢,这就需要采用智能处理方式来发现数据中的知识,也就是要采用数据挖掘的技术来处理发现数据中隐含的模式,隐含的知识。
数据库数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。该定义包含着以下几个含义:① 被处理的数据必须是真实的、大量的;② 发现的是有用的,是用户感兴趣的知识;③ 被发现的知识要可接受、可理解、可运用;④ 被发现的知识并不要求具有通用性,而是面向特定问题的有用知识。数据挖掘还被认为是一种商业信息处理技术,主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。没有数据挖掘技术的发展,数据库中的大量数据不能得到充分分应用,不能发现数据库中数据所隐含的有用知识。那么,数据库中的数据不管有多么的完整,量有多么的大,只要不能提供给经营决策,不能带来经济效益,数据最终只能是“垃圾数据”。
数据挖掘是一个涉及到多学科的领域。这些相关领域学科包括数据库技术、机器学习、模式识别、统计学、模式识别、信息检索、神经网络、人工智能等。数据挖掘已经成为了目前国际上数据库和信息决策系统最前沿的研究方向之一。与此同时,适合于各种环境,各种应用的数据挖掘算或改进算法层出不穷,可谓复杂至极。本文就目前较为权威的,应用较广泛的挖掘算法进行分析,目的在于今后面对具体的数据,具体的目的,如何灵活选择可行的挖掘算法。
数据挖掘的任务可以大体分为:分类、聚类、关联、回归、时间序列分析、序列发现、预测等几个方面。其中,分类、聚类在信用评估中应用最为广泛。
1 分类算法
分类分析也就是利用同质实物所具有的共同特性对某一个例进行归类处理。在数据挖掘中,通过对训练集中的数据分析,得到每个类同质记录的准确描述并建立分析模型或挖掘出分类规则,而后用这些获得分类规则对新的数据记录进行分类处理。在分类分析中,有基于统计的算法、基于距离的算法、基于决策树的算法、基于神经网络的算法还有基于规则的算法等。回归就是基于统计的算法的一种,用于实现根据输入值估计一个输出值,对数据集进行建模,并用某一公式拟合数据,实现对数据的分割和输出预测[2]。K最邻近是一种常用的基于距离度量的分类方法,适用于训练集中每个元组都包含期望类标记的情况。基于决策树的算法、基于神经网络的算法是常用的分类算法。
1.1 决策树法。决策树是采用自上而下,逐步分割的归纳学习方式构建而成的倒立的树,常被用于分类学习。非叶子节点为条件节点,对应着某个属性上的测试,其下的每个分支代表着该属性上的一个测试输出。叶子节点代表着元组的所属类别。
决策树模型被用于分类预测时。可以直接单独使用,也可以与其他模型相结合使用,后者能实现更为准确的分类预测。例如,可以直接使用决策树模型来实现市场营销、风险管理等方面的管理决策制定。又如,先采用构建浅层次的决策树的方式来实现对样本集初步的分割,目的是得到同质小样本集;而后,与其它数据挖掘模型相结合进一步建立更为准确的分组。
构建决策树算法模型的核心是选择合适的测试属性用以分割样本集。在处理这一核心问题上,采用不同的技术将形成不同的具体的决策树算法模型。应用比较广泛的决策树算法模型有:ID3、C4.5、C5.0、CART。ID3是Quinlan于1986年提出的基于信息熵的决策树分类算法,C4.5是Quinlan于1993年提出的ID3改进版的算法,C5.0主要针对大数据集的分类,与C4.5相比,前者在生成规则方面作了改进,在运行效率上要比后者快。CART是一种生成二叉树的决策树算法,它同样是采用信息熵为选择分割属性的度量标准。决策树算法除了上面提到的四种,还存在多种改进的算法,但在分割属性的选择方式上大都采用“贪婪算法”。
1.2 神经网络。神经网络是一组相互连接的由多个节点构成的有向图,是模拟智能动物的脑神经认知事物的功能而建立的一种网络学习模型。神经网络模型的建模过程是非线性的,属于梯度下降算法。支持信息的并行处理,在模式识别与分类、识别滤波、自动控制、预测等方面都有广泛的应用。
神经网络的结构中有两个重要的组成元素:节点、连接。节点对应着智能动物的神经元,而连接则对应神经元之间的联系。下级神经元的输出值y。
W为相邻层次节点联系连接的权重;x为前一层节点的输出;θ为单元p的偏倚,偏倚充当阀值,用于改变单元的活性;y为单元p的输出,其中
为激励函数,也称为挤压函数、输出变换函数或传递函数。常见的激励函数有线性激励函数、阀值或阶段激励函数、双曲线激励函数、高斯激励函数等多种形式。为了模拟智能动物认知活动中神经元的非线性特性,激励函数更多的是采用S形(Sigmoid)函数,形式如下:
神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。其最大的缺点是“黑箱”性,难以理解网络的学习和决策过程。
2 聚类分析
聚类分析与分类有相同点,也有不同点。相同的是,都是将数据进行分组;不同的是,聚类分析处理的数据对象的类是未知的。聚类分析就是将对象集合分组为由类似的对象组成的多个簇的过程。聚类的算法有层次算法、划分算法。
2.1 层次方法。层次方法聚类是将数据对象组成一棵聚类树。根据处理方式是自顶向下还是自底向上,层次聚类方法可以进一步分为凝聚与分裂。无论是凝聚还是分裂都存在前一步不可修正性。
BIRCH方法通过集成层次聚类和其他聚类算法来对大量数值数据进行聚类。层聚类用于出事的微聚类,其他的方法,如迭代划分用于宏聚类。客服了凝聚聚类方法面临的可伸缩性,前一步工作不能撤销的问题。
2.2 基于密度的方法。根据邻域对象的密度生成簇,OPTICS是一种基于密度的方法,它生成的数据聚类结构的一个增广矩序,该序代表数据的基本密度的聚类结构。
2.3 基于网格的方法。这种方法采用一个多分辨率的网格数据结构。将空间量化为有限数目的单元,这些单元形成了网格结构,所有聚类分析都在网格上进行。这种方法主要优点是:处理速度快,它的处理时间仅依赖于量化空间中每一维上的单元数目,却独立于数据的数目。常用的算法有STING、WAVECLUSTER和CLIQUE。
3 结论
随着数据量的增长,数据库系统的广泛应用,数据挖掘技术的研究越来越深入。各类算法都得到了发展或扩展。但是,从整体上看,各种算法都有一定的优缺点,都有适用范围,都有局限性。因此,采用单一方法难以得到理想的知识,应该有机组合,根据各种算法的优缺点进行互补性的选择,加以组合,加以改进才能运用好数据挖掘技术。
参考文献:
[1]Jianwei Han Micheline Kamber著,《数据挖掘概念与技术》,机械工业出版社,2008年,12月,第1版.
[2]王政霞,基于统计方法的数据挖掘算法研究,《湖北民族学院学报(自然科学版)》,2005年,3月,第23卷,第1期.
[3]田飞,简谈数据挖掘算法,《科技咨询导报》,中国地质大学研究生院资源学院,2007年,NO.29.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”