浅谈计算机数据挖掘

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:yaki84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:社会的发展进入了网络信息时代,随之产生了各种类型的数据海量。在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到人们的关注。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术为应对信息爆炸,海量信息的处理提供了科学和有效的手段。本文介绍了数据挖掘的概念、对象、任务、过程、方法、应用领域及其面临的挑战。
  关键词:计算机;数据;挖掘技术
  中图分类号:TP391
  计算机数据挖掘技术的产生是社会的一种进步,了解计算机数据挖掘对我们来说非常的重要,计算机数据挖掘在网络信息时代的今天对于一个企业来说非常的重要,计算机数据挖掘甚至成为很多企业的核心竞争力,我们要充分认识数据挖掘的概念、对象、任务、过程、方法和应用领域,只有充分地认识数据挖掘的概念、对象、任务、过程、方法和应用领域,我们才能够更好地完善和发展它。
  1 计算机数据挖掘的概念及对象
  1.1 计算机数据挖掘的概念
  计算机数据挖掘是在社会的发展进入了网络信息时代之后产生的网络衍生产品,计算机数据挖掘主要是通过一定的手段对企业内部进行数据挖掘,然后通过一定的分析,对那些通过数据挖掘得到的数据进行整理,进而分析企业的市场以及企业的发展等等问题。计算机数据挖掘对处于网络信息时代之中的企业来说非常重要,它是处于网络信息时代之中的企业长远发展的助推器,作为处于信息时代的企业要抓住这个促进自己发展的大好契机。
  1.2 计算机数据挖掘的对象
  计算机数据挖掘具有一定的针对性,计算机数据挖掘的对象(目标数据)并不是所有的数据,它是具有选择性的,计算机数据挖掘的对象主要是指企业中能够揭示一些未发现的隐藏信息和企业中比较有意义和研究价值的数据,明确这一点非常的重要,计算机数据挖掘的对象的选择性是影响计算机数据挖掘效率的主要因素,对于一个没有充分认识计算机数据挖掘对象的选择性的企业来说,它的计算机数据挖掘的效率会比成熟的计算机数据挖掘的企业或者是充分认识到计算机数据挖掘的对象的选择性的企业要低得多。同时,明确目标数据的类型也非常重要,它直接决定了要使用的数据挖掘技术和方法,大体上数据类型分为三类:记录数据,给予图形的数据和有序的数据。
  2 计算机数据挖掘的任务及过程
  2.1 计算机数据挖掘的任务
  计算机数据挖掘主要是对海量的数据进行挖掘和分析,必须经过计算机数据准备和计算机数据规律寻找的固定过程,在计算机数据挖掘的过程中,计算机数据准备和计算机数据规律的寻找一个都不能少,我们要做好计算机数据挖掘的每一步,计算机数据挖掘的任务主要有对计算机数据挖掘的结果与企业的市场现状进行一个具体的联系、对计算机数据挖掘的结果进行一定的分类,对计算机数据挖掘的结果进行一定的变异分析。在处理计算机数据挖掘的任务时,我们要完成计算机数据挖掘的每一个任务,首先,对计算机数据挖掘的结果与企业的市场现状进行一个具体的联系是计算机数据挖掘的根本任务,而对计算机数据挖掘的结果进行一定的分类是计算机数据挖掘的主要任务,最后对计算机数据挖掘的结果进行一定的变异分析是计算机数据挖掘的必要任务。
  2.2 计算机数据挖掘的过程
  计算机数据挖掘的过程具有一定的复杂性,计算机数据挖掘的基本过程:第一,对计算机数据的来源进行一定的分析。这一步非常的重要,一个完整的计算机数据挖掘的过程必须以这一步为基础,只有对计算机数据的来源进行一定的分析,我们才能够进行下一步的操作;第二,从计算机数据的来源的分析结果中获取一定的信息,然后我们要对计算机数据的来源的分析结果进行研究,在研究的过程中,我们要查阅相关的专业知识和专业的研究数据挖掘的技术,只有具备了相关的专业知识和专业的研究数据挖掘的技术,我们才能够更好地对计算机数据进行挖掘;第三,对计算机数据挖掘的信息进行一定的整合,检查出不太合理的相关信息;第四,数据挖掘的实施。根据挖掘具体任务选择相应的数据挖掘实施算法;第五,结果评估与整理。在完成实施阶段后,要对数据挖掘结果进行评估和整理,完成整个数据挖掘的过程。
  3 计算机数据挖掘的技术方法、应用领域及挑战
  3.1 计算机数据挖掘的技术
  计算机数据挖掘有很多的专业技术,我们来简单介绍一下主要的计算机数据挖掘的技术:第一,计算机数据挖掘的统计技术。统计是计算机数据挖掘必不可少的技术,在数据清理过程中,统计提供数据发现极端值;第二,人工智能技术。人工智能技术是近些年来新兴的计算机数据挖掘的技术,它在数据挖掘中的应用比较广,它可以对数据进行推断和智能代理,是计算机数据挖掘的重要技术;第三,决策树方法。决策树方法是代表决策集合的单杆结构,它具有一定的分类规则,有一定的预测作用,是计算机数据挖掘的主要技术之一。
  3.2 计算机数据挖掘的方法
  随着近些年数据挖掘技术的广泛使用,数据挖掘的方法也在不断的进步和完善,现阶段主流的数据挖掘的方法有分类、关联规则、聚类分析等。分类是找出一组数据对象的共同特点并按照既定的分类模式将其划分为不同的类别。关联分析是描述数据之间所存在的关联规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。聚类分析是把一组数据按照相似性和差异性分为几个类别,使得属于同一类别的数据间的相似性尽可能大。
  3.3 计算机数据挖掘的应用领域
  计算机数据挖掘最大的应用领域就是商业领域,它能够为商业机构提供欺诈侦查和客户市场分类等数据。在这个高速发展的信息时代,网络是商业发展的主要推动因素,我们要使计算机数据挖掘在商业上的应用领域更广。以下是近些年来计算机数据挖掘的主要应用领域:第一,计算机数据挖掘在我国银行领域中的应用。银行是一个数据集中度和数据处理要求均非常高的领域,对于一个银行来说,每天都要面临着海量的数据,这些数据的挖掘分析对于银行来说是其发展的根本所在;第二,计算机数据挖掘在电子商务中的应用。电子商务是网络高速发展的产物,对于电子商务而言,海量数据的挖掘分析成为了电子商务未来发展的保证,因此,计算机数据挖掘在电子商务中的应用得到了快速的发展。
  3.4 数据挖掘技术面临的挑战
  数据挖掘技术面临的最大挑战就是隐私的保护和数据的安全性问题。当数据在不同的抽象级别视角去考察的时候,数据挖掘对隐私和数据安全就构成了威胁。它威胁到保持数据安全和防止干涉隐私的目标的实现。如,近期被世人高度关注的“棱镜门”事件,充分说明了数据挖掘技术应用与个人隐私保护之间的矛盾和冲突,它也将是该技术在未来面临的最大挑战之一。
  4 结语
  计算机数据挖掘技术是一项正在世界范围内高速发展的技术,我们不仅要对数据挖掘的概念、对象、任务、过程、方法和应用领域进行充分的认识,而且要充分认识到计算机数据挖掘面临的挑战,比如说隐私问题。笔者相信,通过我们的努力,计算机数据挖掘技术将会在各个领域得到广泛的应用,并对人类的活动产生深远的影响。
  参考文献:
  [l]周碧珍.浅析计算机数据挖掘技术在档案信息管理系统中的应用[J].黑龙江科技信息,2009(01).
  [2]余辉,张力新,刘文耀.计算机辅助医学知识发现系统研究——糖尿病并发症流行病学数据挖掘[J].生物医学工程学杂志,2008(04).
  [3]张成霞.基于数据挖掘的煤矿计算机综合管理系统的研究[J].煤炭技术,2013(05).
  作者单位:华中师范大学计算机学院,武汉 430079
其他文献
非连续性实用类文本是相对于连续性文本而言的阅读材料,主要以图画、数据、符号、文字等形式呈现,从不同角度呈现事物或主题,单独看是完整的,合在一起又能够综合地表达意义。非连续性文本的特点是直观、简明、概括性强,易于比较,实用性特征非常明显。学会从非连续性实用类文本中获取信息,得出结论,是高中生应当具备的一种能力。一、高考考查内容二、考查特点归纳  综合图表分析,我们不难发现近3年全国卷非连续性实用类文
上气道阻力综合征是一种与阻塞性睡眠呼吸暂停综合征既相似而又不同的一种临床综合征,近年来日益受到重视.然而常规多导睡眠图检查并不能发现.本文对其诊治进展作一综述.
采凋2块结构相同的复合水平潜流人工湿地。选用不同的植物组合处理农村富营养化水体,分析2块湿地的净化效果,结果表明:2个复合水平流人工湿地对于TN和NH3-N的去除效果差异明显,而
小说是通过完整的故事情节和典型的环境描写来塑造具有典型性格的人物、多角度多层次地反映现实生活的文学体裁。高考所选小说主要是一千五百字左右的微型小说。它篇幅短小,
摘要为了能够很好地供应城市街道、园林绿化用苗,结合湟中县多巴国营苗圃多年来培育水腊苗木的成功经验,从育苗地、播种育苗、苗期管理、种子采收等方面介绍了水腊育苗技术,以供高原地区水腊育苗参考。  关键词水腊;育苗播种;高原地区  中图分类号S688文献标识码B文章编号 1007-5739(2010)16-0204-01    水腊(Ligustrum obtusifolum siob.)是木樨科女贞属
摘要从严格选田、合理安排播差期、种植行比密度、合理施肥、防病治虫灭草、灌水搁田、预测花期、抓好刈叶、喷打好九二○、拉赶花粉以及认真去杂保纯等方面介绍了杂交粳稻申优一号高产制种技术,以期为申优一号的制种提供参考。  关键词杂交粳稻;申优一号;高产;制种技术  中图分类号S511.2 2文献标识码B文章编号 1007-5739(2009)04-0162-02    申优一号是由上海市农科院作物所用秀水
<正> 多中心Castleman病(MCD)是一种淋巴组织增生紊乱性疾病,以血管滤泡增生及浆细胞浸润为典型特征,有时可进展为侵袭性非霍奇金淋巴瘤(NHL),有效治疗是低剂量化疗。HIV相关
基于泵产品临界转速的实际计算和国外泵行业研究报告,阐述了密封间隙力对计算泵临界转速的重要作用,提出要以湿态临界转速计算结果作为安全裕度的判据。
Fabry’s病是性连锁隐性遗传病,基因缺失位于Xq22,可导致d-半乳糖苷酶A不足并致全身性细胞溶酶体内糖鞘脂积聚,常见于血管的内皮和平滑肌细胞、心脏、肾脏、皮肤和中枢神经系统
实验数据表明,胎盘生长因子(PIGF)系血管内皮生长因子家族成员,为动脉粥样硬化不稳定炎症斑块的一个主要助长因素,因此可能成为急性冠脉综合征(ACS)患者的一个危险预测指标。为