论文部分内容阅读
[摘 要]随着当前现代科技的发展,计算机在各方面都得到了广泛的应用,计算机给人们的生活带来了翻天覆地的变化,人们对计算机的重视程度越来越高。但是应该看到,计算机一方面带来了巨大的便利条件,另一方面也带来了很多问题,如果能够对这些数据进行深入的分析,并且从中找到潜在的规律,会对管理者决策起到非常大的作用。本文主要是在分析数据挖掘技术主要功能的基础上,提出了四点关于数据挖掘技术的算法。
[关键词]数据挖掘 计算机 算法
中图分类号:TV55 文献标识码:A 文章编号:1009-914X(2017)06-0138-01
正文
数据挖掘功能主要是用于指定数据挖掘任务中要找的模型类型。数据挖掘模式可以是说明数据库中数据一般特性的描述性挖掘,也可以是用于在当前数据上进行预测和推断的预测性挖掘。
一、数据挖掘技术的主要功能
1、描述功能
所谓的类/概念描述就是指将数据与类或概念相关联,对每个类/或概念用精确的、简洁的、汇总的方式进行描述。采用的描述方法主要有:数据特征化、数据分区和数据特征比较。数据特征化就是目标类数据的一般特征或特征的汇总。通过数据库查询收集用户指定类的数据,采用多种方式实现数据特征化和汇总,也可以运用多种形式提供数据输出,也可以采用规则形式或者概化关系进行结果描述。
2、分类预测功能
分类就是找出描述并区分数据类或概念的模型,这样可以较好地使用模型预测类对未知对象类进行标记。基于对训练数据集分析的导出模型可以表示为多种形式,例如:判定树、数学公式、分类规则和神经网络等。其中判定树是一个类似于流程图的树结构,在这个树结构中,树叶代表类分布或者类,分支代表测试的一个输出,每个节点代表一个属性值上的测试。判定树容易转化为分类规则。数据对象的类标记可以用分类来预测,预测通常指被预测的值是数据数值。
3、聚类分析功能
聚类就是把物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。首先就是要把数据对象分组为多个簇或者类,不同簇中的对象差别大,而同在一个类或者簇中的对象相似性较大。就数据挖掘来讲,通过聚类分析用来获取数据分布情况,可以对每个簇进行观察,可以选定一些需要进一步分析的簇。同时,聚类分析还可以作为其他算法的预处理步骤。
4、演变分析功能
数据演变分析描述行为随时间变化的对象或者趋势,并且对此建立模型。演变分析可能包括时间相关数据的类聚、关联、区分以及特征化等,这些分析的不同特点包括序列或者周期模式匹配的数据分析、时间序列数据分析以及基于类似性的数据分析。
二、数据挖掘技术分析方法
1、聚类分析方法
通过数据聚类分析把相似性特点的数据归为若干个簇,这些簇具有最小的组间相似性和最大的组内相似性。换句话说就是要让同一聚类中的数据达到最大的相似性,讓不同类聚中的数据达到最大的不同。聚类分析与分类是不同的,对目标数据库中的数据进行分类的时候,我们是知道存在哪些类,然后标记出来每一条记录属于哪一类。可是聚类是不同的,聚类预先不知道目标数据库中有多少类,以某种度量为标准的相似性,将所有的记录组成的类在不同类聚之间实现最大化,而在同一类聚之间实现最小化。 依据聚类的数据情况,可以把聚类分为属性聚类和对象聚类两类,属性聚类常常根据相似系数来度量相似性,对象聚类则通常用距离或相似系数来度量相似性。
2、关联分析方法
关联是指多个数据项之间联系的规律。关联规则挖掘是数据挖掘中最成熟的技术之一,同时还是数据挖掘的主要研究方向之一。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而可以对事物某些属性同时出现的规律和模式进行描述。由于关联规则不收因变量的限制,所以在数据挖掘中关联规则得到了广泛的应用。关联规则可以进行多维数据之间的相关性分析,所以关联规则适用于发现大型数据集中数据之间的关系。
3、分类分析方法
在数据挖掘技术中分类分析技术的使用率非常高。分类分析中首先要确定类别概念,根据类别的特征构造模型,标记好每个类别,该标记代表着各类数据的综合信息。然后对簇中对象的共同点以及各个簇间对象的区别加以描述。
4、决策树方法
决策树方法是数据挖掘的一个活跃领域。决策树是一个类似于流程图的树结构,是一种基于实际数据的归纳学习算法,解决以离散型变量作为属性的一种学习方法。决策树的每个分支代表一个测试输出,每个内部节点表示属性上的一个测试,而每个树叶节点则是代表着类的分布或者一个类。有代表性的决策树算法主要有C4.5和ID3算法。与其他的挖掘方法相比,决策树模型简单易懂,而且容易获得更好、更详尽的分类准确率,而且决策树方法的处理速度较快。但是决策树方法也有自身的不足,需要对连续型变量进行转换,比较难预测;当类别较多的时候,错误增加也会较快;要做很多的预处理工作才能处理时间顺序的数据等。
5、遗传算法
这种算法是一种全局优化算法,易于和其他模型结合,具有非线性求解和隐含的并行性等特点。遗传算法模拟生物的遗传机制和自然选择,采用遗传变异、自然选择、遗传结合等设计方法,通过一组遗传算子把需要求解的问题在求解空间上迭代搜索,找到问题的最优解 。目前来讲,遗传算法在神经网络、工业优化控制、模式识别、机器学习等各方面都得到了广泛的应用。当前的研究更侧重于遗传算法与局部优化算法的结合、算法的收敛性证明以及遗传算子的设计等方面的研究。
三、结论
随着人们对信息数据量的急速增长从而数据挖掘技术也随之应运而生,这使得人们对知识与信息的渴求得到了进一步满足。对于如何才能快速高效的获取知识,对于信息处理技术来说尤为重要。
参考文献
[1] 数据仓库与数据挖掘技术[M].电子工业出版社,2002.
[2] 王丽珍等编著.数据仓库与数据挖掘原理及应用[M].科学出版社,2005.
[3] 刘新平,刘存侠编著.教育统计与測评导论[M].科学出版社,2003.
[4] 李雄飞,李军编著.数据挖掘与知识发现[M].高等教育出版社,2003.
[关键词]数据挖掘 计算机 算法
中图分类号:TV55 文献标识码:A 文章编号:1009-914X(2017)06-0138-01
正文
数据挖掘功能主要是用于指定数据挖掘任务中要找的模型类型。数据挖掘模式可以是说明数据库中数据一般特性的描述性挖掘,也可以是用于在当前数据上进行预测和推断的预测性挖掘。
一、数据挖掘技术的主要功能
1、描述功能
所谓的类/概念描述就是指将数据与类或概念相关联,对每个类/或概念用精确的、简洁的、汇总的方式进行描述。采用的描述方法主要有:数据特征化、数据分区和数据特征比较。数据特征化就是目标类数据的一般特征或特征的汇总。通过数据库查询收集用户指定类的数据,采用多种方式实现数据特征化和汇总,也可以运用多种形式提供数据输出,也可以采用规则形式或者概化关系进行结果描述。
2、分类预测功能
分类就是找出描述并区分数据类或概念的模型,这样可以较好地使用模型预测类对未知对象类进行标记。基于对训练数据集分析的导出模型可以表示为多种形式,例如:判定树、数学公式、分类规则和神经网络等。其中判定树是一个类似于流程图的树结构,在这个树结构中,树叶代表类分布或者类,分支代表测试的一个输出,每个节点代表一个属性值上的测试。判定树容易转化为分类规则。数据对象的类标记可以用分类来预测,预测通常指被预测的值是数据数值。
3、聚类分析功能
聚类就是把物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。首先就是要把数据对象分组为多个簇或者类,不同簇中的对象差别大,而同在一个类或者簇中的对象相似性较大。就数据挖掘来讲,通过聚类分析用来获取数据分布情况,可以对每个簇进行观察,可以选定一些需要进一步分析的簇。同时,聚类分析还可以作为其他算法的预处理步骤。
4、演变分析功能
数据演变分析描述行为随时间变化的对象或者趋势,并且对此建立模型。演变分析可能包括时间相关数据的类聚、关联、区分以及特征化等,这些分析的不同特点包括序列或者周期模式匹配的数据分析、时间序列数据分析以及基于类似性的数据分析。
二、数据挖掘技术分析方法
1、聚类分析方法
通过数据聚类分析把相似性特点的数据归为若干个簇,这些簇具有最小的组间相似性和最大的组内相似性。换句话说就是要让同一聚类中的数据达到最大的相似性,讓不同类聚中的数据达到最大的不同。聚类分析与分类是不同的,对目标数据库中的数据进行分类的时候,我们是知道存在哪些类,然后标记出来每一条记录属于哪一类。可是聚类是不同的,聚类预先不知道目标数据库中有多少类,以某种度量为标准的相似性,将所有的记录组成的类在不同类聚之间实现最大化,而在同一类聚之间实现最小化。 依据聚类的数据情况,可以把聚类分为属性聚类和对象聚类两类,属性聚类常常根据相似系数来度量相似性,对象聚类则通常用距离或相似系数来度量相似性。
2、关联分析方法
关联是指多个数据项之间联系的规律。关联规则挖掘是数据挖掘中最成熟的技术之一,同时还是数据挖掘的主要研究方向之一。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而可以对事物某些属性同时出现的规律和模式进行描述。由于关联规则不收因变量的限制,所以在数据挖掘中关联规则得到了广泛的应用。关联规则可以进行多维数据之间的相关性分析,所以关联规则适用于发现大型数据集中数据之间的关系。
3、分类分析方法
在数据挖掘技术中分类分析技术的使用率非常高。分类分析中首先要确定类别概念,根据类别的特征构造模型,标记好每个类别,该标记代表着各类数据的综合信息。然后对簇中对象的共同点以及各个簇间对象的区别加以描述。
4、决策树方法
决策树方法是数据挖掘的一个活跃领域。决策树是一个类似于流程图的树结构,是一种基于实际数据的归纳学习算法,解决以离散型变量作为属性的一种学习方法。决策树的每个分支代表一个测试输出,每个内部节点表示属性上的一个测试,而每个树叶节点则是代表着类的分布或者一个类。有代表性的决策树算法主要有C4.5和ID3算法。与其他的挖掘方法相比,决策树模型简单易懂,而且容易获得更好、更详尽的分类准确率,而且决策树方法的处理速度较快。但是决策树方法也有自身的不足,需要对连续型变量进行转换,比较难预测;当类别较多的时候,错误增加也会较快;要做很多的预处理工作才能处理时间顺序的数据等。
5、遗传算法
这种算法是一种全局优化算法,易于和其他模型结合,具有非线性求解和隐含的并行性等特点。遗传算法模拟生物的遗传机制和自然选择,采用遗传变异、自然选择、遗传结合等设计方法,通过一组遗传算子把需要求解的问题在求解空间上迭代搜索,找到问题的最优解 。目前来讲,遗传算法在神经网络、工业优化控制、模式识别、机器学习等各方面都得到了广泛的应用。当前的研究更侧重于遗传算法与局部优化算法的结合、算法的收敛性证明以及遗传算子的设计等方面的研究。
三、结论
随着人们对信息数据量的急速增长从而数据挖掘技术也随之应运而生,这使得人们对知识与信息的渴求得到了进一步满足。对于如何才能快速高效的获取知识,对于信息处理技术来说尤为重要。
参考文献
[1] 数据仓库与数据挖掘技术[M].电子工业出版社,2002.
[2] 王丽珍等编著.数据仓库与数据挖掘原理及应用[M].科学出版社,2005.
[3] 刘新平,刘存侠编著.教育统计与測评导论[M].科学出版社,2003.
[4] 李雄飞,李军编著.数据挖掘与知识发现[M].高等教育出版社,2003.