数据挖掘综述

来源 :中国学术研究 | 被引量 : 0次 | 上传用户:a273582760
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘作为一门新兴的交叉学科,正在国计民生的各个领域发挥日益重要的作用,本文对数据挖掘的相关方面进行了介绍,包括数据挖掘的概念、过程、技术与方法、应用以及发展前景等。
  关键词:数据挖掘;挖掘过程;技术与方法;发展前景
  
  1.数据挖掘概述
  随着信息技术的飞速发展,人类在各个领域所积累的数据正以指数方式增长,现代社会的竞争趋势要求对这些海量的数据进行实时的和深层次的分析,以揭示隐藏在这些数据背后的潜在更有用的信息,为决策部门在决策制定过程中提供重要的参考依据。为了解决这个在信息领域具有普遍性的“知识发现”问题(KDD),数据挖掘(DM,又称为数据采掘、数据开采)技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘广泛应用于各个领域,如银行、电信、保险、零售、生物、基因、电子商务。
  2.数据挖掘过程
  (1)确定业务对象
  清晰地定义业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
  (2)数据准备
  数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
  数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作类型。
  数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
  (3)数据挖掘
  对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
  (4)结果分析
  解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
  (5)知识的同化
  将分析所得到的知识集成到业务信息系统的组织结构中去。
  3.数据挖掘常用技术与方法
  数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单组合,而是一个不可分割的整体,还需要其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法和技术可以分为以下几类:
  (1)决策树方法
  这是数据挖掘中经常使用的方法,它可以用来进行数据分析,也可以用来做预测。决策树(decision tree)用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。
  (2)人工神经网络方法
  人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。其最大优点是能精确地对复杂问题进行预测。
  (3)统计分析方法
  统计分析是应用最早、也是目前最成熟和行之有效的一种数据挖掘方法。该方法的关键是构造合适的统计模型和数学模型来解释被分析的数据模式。这种方法要求使用者具备较为丰富的领域知识。统计分析一般由两大步骤构成:首先,从数据仓库中选择抽取适当的数据;其次,执行统计分析工具中提供的可视化功能和分析功能来寻找数据间的关系,并构造统计模型和数学模型来解释数据。其中第二步反复并不断求精。
  (4)模糊数学方法
  客观事物往往具有某种不确定性。系统的复杂性越高,则其精确性越低,也就意味着模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好的效果。
  (5)遗传算法
  这是一种新的优化技术,借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个体适应性的提高。其基本思想是:随着时间的更替,只有最适合的物种才得以进化。在遗传算法的实施中,首先要对求解的问题进行编码(称为染色体),产生初始群体,然后计算个体的适应度;再进行染色体的复制、交换、突变等操作,产生新个体;重复这个操作,直到求得最佳或较佳个体。遗传算法能够解决许多其它技术难以解决的问题。
  (6)可视化技术
  数据与结果被转化和表达成可视化形式,如图形或图像,能够帮助人们进行快速直观地分析数据。利用可视化方法,很容易找到数据之间可能存在的模式、关系和异常情况等。
  4.数据挖掘的应用
  随着大量算法的完善、挖掘过程的系统化、规范化以及工具的不断推陈出新,数据挖掘技术已显现了它广泛的应用前景。
  (1)在医学上的应用
  利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
  (2)在金融领域中的应用
  通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
  (3)在商业零售业中的应用
  利用数据挖掘可以进行销售、顾客、产品、时间和地区的多维分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。
  (4)在电信业中的应用
  在电信市场激烈的竞争和迅速的业务扩张中,可以利用数据挖掘技术的帮助来理解商业行为、确定电信模式、捕捉盗用行为,更好地利用资源和提高服务质量。
  现在已经应用数据挖掘技术的领域都是信息丰富、环境多变、尚无模型、需要知识帮助进行管理和决策的领域。如政府管理决策、商业经营、科学研究和企业决策支持等领域,都可以采用数据挖掘技术解决许多问题。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
  5.数据挖掘的发展前景
  近几年对于数据挖掘的研究发展很快,预计在未来若干年,研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面:
  (1)专业开发语言出现。研究专门用于知识发现的数据挖掘语言,并使其走向形式化和标准化。
  (2)寻求数据挖掘过程中更优秀的可视化方法。实现在知识发现的过程中进行人机交互,图文数并茂,便于知识发现的过程能够很容易的被用户理解。
  (3)研究基于网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现网络(远程)数据挖掘。
  (4)加强对各种非结构化数据的开采(Data Mining for Audio & Video),如对图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
  (5)挖掘软件的适用性更加灵活。如果一次挖掘不能实现相应的目标,可以进行交互式、动态性、分层挖掘等,即交互挖掘技术的发展。
  (6)出现功能较强大的专用数据挖掘软件。就目前来看,将来的几个热点发展方向包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘等,这些领域具有独特的数据性质,需要由独特的专用软件来支持。
  (7)空间数据挖掘(Spatial Data Mining)将有所突破。
  (8)研究更有效的方法,使挖掘过程中的数据更安全。
  
  参考文献:
  [1]Jiawei Han, Micheline Kamber著.范明,孟小峰等译.数据挖掘一概念与技术[M].北京:机械工业出版社,2006.
  [2]苏新宁,杨建林,江念南,栗湘.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.
其他文献
摘 要:面对国际金融危机的冲击,山东省邹平县紧紧抓住国家一系列扩大内需政策的机遇,坚定信心,迎难而上,全力保增长、扩内需、调结构、促增长,使全县国民经济继续保持较快、稳定、健康发展,职工工资水平得到较大提升。本文拟对城镇职工工资问题进行探讨,仅供参考。  关键词:城镇工资;在岗人数    2009年,邹平县城镇在岗职工工资总额为379160.6万元,比上年增长8.76%,在岗职工年平均工资为每人2
期刊
人力资源的开发和管理,目前日益受到各国政府、企业和学术界的普遍的关注。人类社会发展到今天,人们逐渐意识到,社会经济活动的一切竞争,规格到底是人力资源特别是人才的竞争。企业效益的源泉和动力,应该归结为人力资本内在的积累和增长,应该说人力资源是现代企业发展的源动力。以下就人力资源开发问题谈谈自己的认识。  一、充分认识人力资源开发存在误区  1.管理理念上的误区。表现在以劳动人事管理代替人力资源管理,
期刊
摘 要:在高职院校推行岗位设置管理制度改革,是推进高职院校人事管理制度改革的重要举措,也是当前高职院校面临的一项紧迫而又复杂的任务。本文首先介绍了新形势下岗位设置管理改革的基本内涵,在此基础上阐明了高职院校实施岗位设置管理工作的重要意义,最后着重就改革过程中可能面临的困难和重点难点问题进行了探讨。  关键词:岗位设置;人事制度改革;高职院校;聘用制    高校岗位设置管理制度改革是深化高校人事制度
期刊
引 言  工业企业燃气输配方案决定着工程建成后的运行状况和经济指标,是天然气利用项目工程设计的核心。方案选择的主要目的是从项目年用气量、工艺流程与输配压力级制、管道走向等方面进行不同方案的技术经济比较,择优选用性能价格比相对优的输配方案,使整个项目能获得高的性能价格比。近年来,随着天然气产业的不断发展,天然气调压计量撬技术在燃气输配系统被广泛应用,针对不同用气性质、不同流量的用户,在出口压力确定的
期刊
摘 要:为带动地方经济发展,新疆推出了大企业大集团的发展战略,我有幸能参加关于此战略的课题,并仔细思考了其中的几个方面,尤其对此次战略的绩效尤其是“圈地运动”产生的应对策略尤为关注。本文将从此次战略尤其是“圈地运动”的应对方面入手发表一些看法,并将分析新疆地方政府应在此战略上的行为策略。  关键词:圈地运动;纳什均衡    新疆推出了大企业大集团战略,据了解,全国各个省、直辖市都不同程度的有吸引大
期刊
当前建筑业正在迅猛发展,它所体现的不止是建筑外观的魅力和人们生活水平的提高,更重要的是它体现了建筑技术和质量的提高;从这个基础上人们可以清晰的看到,建筑技术和建筑质量的提高对于人们的生活和工作有多大的益处。同时,它也可以充分体现一个国家的经济实力。但是,如果建筑工程的质量出了问题的,不仅会给人们的正常生活和工作的秩序带来影响,同时,还有可能给建筑业的发展史上抹上一道黑迹,所以,我国制定了《建筑工程
期刊
摘 要:从我国正式实行事业单位会计制度至今,事业单位的会计核算整体上有了很大程度的改进。然而,目前事业单位会计制度仍然还存在着一些不合理、不规范的地方,这些问题需要各方面加以关注,本文结合实践对此作一探讨,供同行参考。  关键词:会计制度;事业单位;发展方向     一、事业单位会计制度改革的主要内容  事业单位会计指的是以事业单位实际发生的各项经济业务为核算对象,以财务人员记录、反映、监督事业单
期刊
摘 要:工程建设中的投资控制是每个投资者所关心的重要内容之一。就工程项目建设而言,投资控制贯穿于项目建设的全过程。从目前的投资控制来看,通过对项目建议书和可行性研究阶段投资估算的审批和项目法人负责制的实行,投资规模得到了有效地控制。但如何通过优化设计来有效控制投资,还处于继续探寻阶段之中。   关键词:工程建筑;优化设计;投资控制    一、优化设计运作困难的成因  1.政府主管部门对优化设计监控
期刊
摘 要:工程项目是施工企业效益的源泉、信誉的窗口,也是一切管理的出发点和落脚点。以工程项目管理为中心,提高项目的运作质量,是施工企业生存和发展永恒的主题。这就要求我们作为从事公路工程行业的管理人员,应该深入分析施工管理的各个方面,以便对施工过程的各个环节进行全面认识,在此笔者就公路工程施工现场的管理方面的问题,谈谈自己的一些认识和体会。   关键词:公路工程;施工;现场管理    随着我国市场经济
期刊
基本建设竣工决算是建设单位报告建设成果和财务状况的总结性文件,对总结基本建设过程的财务管理工作、检查竣工项目设计概算和基本建设计划的执行情况、考核投资效果具有重要的作用。在实际工作中,水利基本建设项目的竣工决算要报两套竣工决算报表,一套按财政部的要求,一套按水利部的要求。这样做加重了建设单位在编制竣工决算报表时的工作负担。同时,竣工决算实际工作中存在的一些问题财政部和水利部的规定都没有很好地解决,
期刊