浅析数据挖掘技术及其应用

来源 :西江文艺 | 被引量 : 0次 | 上传用户:talenthers312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】:由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关注,介绍了数据挖掘的分类方法和目前采用较普遍的一些数据挖掘方法,分析、总结了数据挖掘技术在商业、Web挖掘、科学研究等几个主要领域的应用情况,综合论述了数据挖掘未来的发展趋势。
  【关键词】:数据挖掘;Web挖掘;应用
  1.数据挖掘技术概述
  1.1数据挖掘的定义
  随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘是一个从大量有噪声、不完整数据中提取出有意义模式知识的过程。所提取、挖掘的数据对象可以是数据库或数据仓库内容,也可以是其它数据源内容。数据挖掘是一个新兴的多学科交叉领域,这其中主要涉及:数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算等。数据挖掘是一个包含多处理步骤的知识发现过程,这其中主要包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出。
  1.2数据挖掘的现状
  KDD(Knowledge Discovery in Database)是指从数据库中获取正确、新颖、有潜在应用价值和最终可理解模式的非平凡过程,此概念首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次。数据挖掘界于1995年召开了第一届知识发现与数据挖掘国际学术会议,于1998年建立起一个新的学术组织ACM-SIGKDD(Special Interested Group on Knowledge Dis-covery in Databases),并于1999年組织了第五届知识发现与数据挖掘国际学术会议。数据挖掘研究还发表在书籍、会议以及有关数据库、统计学、机器学习和数据可视化的杂志上,这些都促成了数据挖掘技术的研究与发展。
  1.3数据挖掘具有以下特点:
  (1)处理的是存贮在数据库、数据仓库和数据市场中的经过预处理的结构化、数值型数据。(2)以定性和定量的逻辑和数学运算为技术基础,利用算法揭示尚未发现的数值型信息之间的关系。(3)在揭示用户行为和建立模型过程中重要作用。
  2.数据挖掘的分类
  数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几个方面进行分类。数据挖掘最开始是从关系数据库中挖掘知识发展起来的,随着数据库类型的不断增加,现有:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型按数据挖掘的对象分,除了数据库数据挖掘外,还有文本数据挖掘、多媒体数据挖掘,Web数据挖掘。按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也守会不同。
  3.数据挖掘的功能
  数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为描述式和预测式两类,描述性挖掘任务用来刻划数据库中数据的一般特性,而预测性挖掘任务则是根据当前数据进行推断,以预测新数据。
  3.1自动预测趋势和行为
  数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结沦一个典型的例子是市场预测问题,数据挖掘使用过有关促销的数据来寻找未来投资中同报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
  3.2关联分析
  关联规则挖掘是由Rakesh Apwal等人首先提出的。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐含的关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。
  3.3聚类分析
  聚类分析实际上就是根据最大化同类间的相似性、最小化不同类之间的相似性的原则,通过一定的训练算法将数据集中的数据按相似性聚集到不同的团簇或分到不同组的过程。使用各种聚类算法进行分析的聚类结果可以建立宏观的概念,以发现数据的分布模式及可能的数据属性之间的相互关系:也可用于进一步的关联分析或是孤立点挖掘。
  4.数据挖掘的应用
  数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,而这种趋势正在以前所未有的速度继续向前发展。
  4.1在金融领域中的应用
  通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
  4.2在科学研究领域中的应用
  在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。
  4.3在医学上的应用
  利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
  5.结语
  数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。
  参考文献:
  [1]毕雪华,吴淼,吴晶. 浅析数据挖掘技术在中医药领域内的应用[J]. 电脑知识与技术,2012,8(10):2175-2176. [2017-09-22].
  [2]赵芳,马玉磊. 浅析数据挖掘技术的发展及应用[J]. 黑龙江科技信息,2010,(09):64. [2017-09-22].
  [3]吴春琼. 浅析数据挖掘技术及其在电子商务中的应用[J]. 黑龙江科技信息,2009,(30):90. [2017-09-22].
  [4]张晓丹. 数据挖掘技术浅析[J]. 中国西部科技,2009,8(17):23-24. [2017-09-22].
  [5]赵红艳,刘弘. 浅析数据挖掘技术及应用[J]. 信息技术与信息化,2007,(02):47-48+51. [2017-09-22].
其他文献
【摘要】:全球信息网络的建设和发展,对整个社会的科学与技术、经济与文化、军事带来了巨大的推动和冲击,同时也给网络的安全运行带来更多的挑战。资源共享和信息安全是一对孪生矛盾。一般认为,影响计算机网络系统的安全运行的主要因素是计算机病毒的攻击。因此,研究计算机病毒与防治就显得很有现实意义。本文将从计算机病毒的研究背景、计算机病毒的定义、特征、类型以及预防方面进行简单的分析和探讨。  【关键词】:计算机
期刊
【摘要】:随着我国经济与科技水平在近些年来不断的提高,我国的综合国力有了显著的增强,尤其是在当今信息化高速发展的大背景下,人们在日常的生活当中,对于计算机网络的依赖性己经越来越大。通信技术与计算机技术二者结合而来的计算机通信网络是现代信息流通的首要条件,也是社会不断向前发展的基础,但是计算机网络通信中存在的客观问题也不容忽视,本文将结合当下的实际情况简要分析计算机网络通信中常见的实时差错问题与网络
期刊
【摘要】:本文主要以贵州青岩古镇旅游产品现状为例,采用了调查法和观察法,实地调研青岩古镇旅游产品实际情况,探讨古镇文化旅游产品的出路,并提出了改变古镇人的思想、建立品牌化的研究、注重细节上的处理等建议,以避免古镇文化旅游产品同质化、泛滥化的现象越加严重。  【关键词】:古镇;旅游产品;分析  古镇文化旅游是如今旅游出行一热,在古镇中行走,感受曾经的文化,体味古朴的生活。但是在旅游市场混乱的当下,古
期刊
【摘要】:介绍了可编程逻辑控制器PLC的应用范围及现状,对PLC在开关量的逻辑控制、模拟量控制、运动控制、数据处理、通信及联网等多个方面的应用现状进行综述,总结PLC技术的发展趋势。  【关键词】:PLC;应用现状;发展前景  1.PLC概述  可编程逻辑控制器,简称PLC,是专为在工业环境下应用而设计的数字运算操作电子系统,是微机技术与传统的继电接触控制技术相结合的产物,它克服了继电接触控制系统
期刊
【摘要】:随着电气设备的逐步发展,电气火灾的隐患也越拉越多。根据全国电气火灾的相关数据来看,极大多数电气火灾都是由于电气设备老化或存在安全隐患所造成的。研究电气火灾的分类和成因及产生原因和特点,正确进行电气设施的选择,建立健全组织和制度,加强低压线路的防火工作,加强雷击火灾的预防,并提出防范电气火灾的常用措施,对指导电气火灾的预防工作、扼制电气火灾的发生具有十分积极的作用。  【关键词】:电气火灾
期刊
【摘要】:随着计算机软硬件的发展和的信息技术的跨越式发展,计算机技术业已被应用于人类生活的各个领域。计算机的出现和发展为人类的生存和生活提供的极大的便利,成为人类生产生活必不可少的工具。将对计算机技术未来发展趋向进行着重探讨,探索未来计算机的创新途径,发展计算机技术与其他信息技术之问的联系,以便为未来的计算机技术的应用领域提供理论支持。  【关键词】計算机技术;应用;发展趋势  1.世界计算机技术
期刊
【摘要】:软件技术是信息技术产业的核心之一,也是软件产业、信息化应用的重要基拙。当前,信息技术正处于新一轮重大技术突破的前夜,它将有力地推动信息产业、软件产业的发展,同时会对软件技术提出新的需求,也必将引发软件技术的重大变革。文章通过对影响软件技术发展主要因素的分析,认为近期软件技术的发展趋势是以网络化、融合化、可信化、智能化、工程化、服务化为特征,并且呈现出新特点与新内涵,以适应软件产业对软件技
期刊
【摘要】:随着计算机的普及,各行各业都已少不了运用计算机来处理日常事务。但是,由于计算机数据的安全上无法得以保障,使得各行各业都或多或少因此而造成一定的损失。该文通过对计算机数据安全现状的分析,总结出计算机数据安全的有效实现路径方案,进而为广大计算机用户提供一些指导性的建议。  【关键词】:计算机数据安全;安全;解决方案  1.数据安全的概念  数据安全包括了其本身的安全以及数据防护的安全。对于数
期刊
【摘要】:随着二手车市场的快速发展,消费者对于二手车的认识也发生了变化。随着汽车更新换代的速度加快,二手车销售已然成为汽车消费市场的重要部分。我国现在正处在全面建设小康社会的阶段,繁荣二手车市场,对促使汽车早日进入家庭,拉动国内消费需求,促进我国的汽车产业的发展和国民经济的发展具有十分重要的意义,与之同时二手车的评估与鉴定也十分具有价值。  【关键词】二手车;市场发展;鉴定;价值评估  1.中国二
期刊
【摘要】:随着计算机技术的不断发展,计算机得到了人们的广泛使用,但是有些人利用计算机网络的实用性和广泛性运用非法的手段进行信息资源的获取,不仅对互联网的安全造成了威胁,也对人民生产的发展、企业的发展造成重大威胁。在这样的情况之下,就要对互联网的安全进行管理和维护,防止不法用户的蓄意破坏。就计算机局域网的维护管理和网络安全展开探讨,采取了一系列的防范措施,对网络安全稳定工作进行保证。  【关键词】计
期刊