论文部分内容阅读
【摘要】:由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关注,介绍了数据挖掘的分类方法和目前采用较普遍的一些数据挖掘方法,分析、总结了数据挖掘技术在商业、Web挖掘、科学研究等几个主要领域的应用情况,综合论述了数据挖掘未来的发展趋势。
【关键词】:数据挖掘;Web挖掘;应用
1.数据挖掘技术概述
1.1数据挖掘的定义
随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘是一个从大量有噪声、不完整数据中提取出有意义模式知识的过程。所提取、挖掘的数据对象可以是数据库或数据仓库内容,也可以是其它数据源内容。数据挖掘是一个新兴的多学科交叉领域,这其中主要涉及:数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算等。数据挖掘是一个包含多处理步骤的知识发现过程,这其中主要包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出。
1.2数据挖掘的现状
KDD(Knowledge Discovery in Database)是指从数据库中获取正确、新颖、有潜在应用价值和最终可理解模式的非平凡过程,此概念首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次。数据挖掘界于1995年召开了第一届知识发现与数据挖掘国际学术会议,于1998年建立起一个新的学术组织ACM-SIGKDD(Special Interested Group on Knowledge Dis-covery in Databases),并于1999年組织了第五届知识发现与数据挖掘国际学术会议。数据挖掘研究还发表在书籍、会议以及有关数据库、统计学、机器学习和数据可视化的杂志上,这些都促成了数据挖掘技术的研究与发展。
1.3数据挖掘具有以下特点:
(1)处理的是存贮在数据库、数据仓库和数据市场中的经过预处理的结构化、数值型数据。(2)以定性和定量的逻辑和数学运算为技术基础,利用算法揭示尚未发现的数值型信息之间的关系。(3)在揭示用户行为和建立模型过程中重要作用。
2.数据挖掘的分类
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几个方面进行分类。数据挖掘最开始是从关系数据库中挖掘知识发展起来的,随着数据库类型的不断增加,现有:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型按数据挖掘的对象分,除了数据库数据挖掘外,还有文本数据挖掘、多媒体数据挖掘,Web数据挖掘。按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也守会不同。
3.数据挖掘的功能
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为描述式和预测式两类,描述性挖掘任务用来刻划数据库中数据的一般特性,而预测性挖掘任务则是根据当前数据进行推断,以预测新数据。
3.1自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结沦一个典型的例子是市场预测问题,数据挖掘使用过有关促销的数据来寻找未来投资中同报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
3.2关联分析
关联规则挖掘是由Rakesh Apwal等人首先提出的。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐含的关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。
3.3聚类分析
聚类分析实际上就是根据最大化同类间的相似性、最小化不同类之间的相似性的原则,通过一定的训练算法将数据集中的数据按相似性聚集到不同的团簇或分到不同组的过程。使用各种聚类算法进行分析的聚类结果可以建立宏观的概念,以发现数据的分布模式及可能的数据属性之间的相互关系:也可用于进一步的关联分析或是孤立点挖掘。
4.数据挖掘的应用
数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,而这种趋势正在以前所未有的速度继续向前发展。
4.1在金融领域中的应用
通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
4.2在科学研究领域中的应用
在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。
4.3在医学上的应用
利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
5.结语
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。
参考文献:
[1]毕雪华,吴淼,吴晶. 浅析数据挖掘技术在中医药领域内的应用[J]. 电脑知识与技术,2012,8(10):2175-2176. [2017-09-22].
[2]赵芳,马玉磊. 浅析数据挖掘技术的发展及应用[J]. 黑龙江科技信息,2010,(09):64. [2017-09-22].
[3]吴春琼. 浅析数据挖掘技术及其在电子商务中的应用[J]. 黑龙江科技信息,2009,(30):90. [2017-09-22].
[4]张晓丹. 数据挖掘技术浅析[J]. 中国西部科技,2009,8(17):23-24. [2017-09-22].
[5]赵红艳,刘弘. 浅析数据挖掘技术及应用[J]. 信息技术与信息化,2007,(02):47-48+51. [2017-09-22].
【关键词】:数据挖掘;Web挖掘;应用
1.数据挖掘技术概述
1.1数据挖掘的定义
随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘是一个从大量有噪声、不完整数据中提取出有意义模式知识的过程。所提取、挖掘的数据对象可以是数据库或数据仓库内容,也可以是其它数据源内容。数据挖掘是一个新兴的多学科交叉领域,这其中主要涉及:数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算等。数据挖掘是一个包含多处理步骤的知识发现过程,这其中主要包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出。
1.2数据挖掘的现状
KDD(Knowledge Discovery in Database)是指从数据库中获取正确、新颖、有潜在应用价值和最终可理解模式的非平凡过程,此概念首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次。数据挖掘界于1995年召开了第一届知识发现与数据挖掘国际学术会议,于1998年建立起一个新的学术组织ACM-SIGKDD(Special Interested Group on Knowledge Dis-covery in Databases),并于1999年組织了第五届知识发现与数据挖掘国际学术会议。数据挖掘研究还发表在书籍、会议以及有关数据库、统计学、机器学习和数据可视化的杂志上,这些都促成了数据挖掘技术的研究与发展。
1.3数据挖掘具有以下特点:
(1)处理的是存贮在数据库、数据仓库和数据市场中的经过预处理的结构化、数值型数据。(2)以定性和定量的逻辑和数学运算为技术基础,利用算法揭示尚未发现的数值型信息之间的关系。(3)在揭示用户行为和建立模型过程中重要作用。
2.数据挖掘的分类
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几个方面进行分类。数据挖掘最开始是从关系数据库中挖掘知识发展起来的,随着数据库类型的不断增加,现有:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型按数据挖掘的对象分,除了数据库数据挖掘外,还有文本数据挖掘、多媒体数据挖掘,Web数据挖掘。按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也守会不同。
3.数据挖掘的功能
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为描述式和预测式两类,描述性挖掘任务用来刻划数据库中数据的一般特性,而预测性挖掘任务则是根据当前数据进行推断,以预测新数据。
3.1自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结沦一个典型的例子是市场预测问题,数据挖掘使用过有关促销的数据来寻找未来投资中同报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
3.2关联分析
关联规则挖掘是由Rakesh Apwal等人首先提出的。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐含的关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。
3.3聚类分析
聚类分析实际上就是根据最大化同类间的相似性、最小化不同类之间的相似性的原则,通过一定的训练算法将数据集中的数据按相似性聚集到不同的团簇或分到不同组的过程。使用各种聚类算法进行分析的聚类结果可以建立宏观的概念,以发现数据的分布模式及可能的数据属性之间的相互关系:也可用于进一步的关联分析或是孤立点挖掘。
4.数据挖掘的应用
数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,而这种趋势正在以前所未有的速度继续向前发展。
4.1在金融领域中的应用
通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
4.2在科学研究领域中的应用
在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。
4.3在医学上的应用
利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
5.结语
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。
参考文献:
[1]毕雪华,吴淼,吴晶. 浅析数据挖掘技术在中医药领域内的应用[J]. 电脑知识与技术,2012,8(10):2175-2176. [2017-09-22].
[2]赵芳,马玉磊. 浅析数据挖掘技术的发展及应用[J]. 黑龙江科技信息,2010,(09):64. [2017-09-22].
[3]吴春琼. 浅析数据挖掘技术及其在电子商务中的应用[J]. 黑龙江科技信息,2009,(30):90. [2017-09-22].
[4]张晓丹. 数据挖掘技术浅析[J]. 中国西部科技,2009,8(17):23-24. [2017-09-22].
[5]赵红艳,刘弘. 浅析数据挖掘技术及应用[J]. 信息技术与信息化,2007,(02):47-48+51. [2017-09-22].