论数据挖掘技术及其应用的实现

来源 :数字化用户 | 被引量 : 0次 | 上传用户:pailfj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,本文介绍在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。
  【关键词】数据挖掘 知识获取 数据库
  数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。
  一、数据挖掘
  数据挖掘是从数据仓库中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。所谓模式,可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。如:成绩优秀的学生学习都非常刻苦;发烧的人是因为患了感冒等。模式的表示方法很多,可以利用图形、文字、表达式等方式表示;所谓处理过程是指数据挖掘是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。
  二、数据挖掘的技术算法
  在数据挖掘的处理过程中,数据挖掘引擎是最为关键的,而决定数据挖掘引擎的算法主要有以下几类:
  (一)数据挖掘的信息论方法
  该类方法是利用信息论原理,计算数据库中各字段的信息量,建立决策树或者决策规则树。比较重要的有ID3方法和IBLE方法。
  (二)数据挖掘的集合论方法
  粗集方法:在数据库中将元素看成行对象,列元素看成属性(分为条件属性和结论属性)。等价关系定义为不同对象在某个属性上相同,这些等价关系的对象组成的集合称为该等价关系的等价类。条件属性上的等价类E与结论属性上的等价类之间有三种关系:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。
  概念树方法:数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。
  (三)数据挖掘的仿生物方法
  神经网络方法:神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。神经网络由“神经元”的互连或按层组织的结点构成。通常,神经模型由三个层次组成:输入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制比较总输入,然后确定其自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的“连接度”或参数时,神经网络就进行了“学习”和“训练”。这里,神经网络用恰当的数据仓库示例来训练。目前,神经网络以MP和Hebb学习规则为基础,建立了三大类多种神经网络模型。
  三、数据挖掘技术的应用
  首先介绍一个著名的实例:SKICAT。然后结合实际具体探讨数据挖掘技术在Bayesian中的应用。
  (一)天文数据分析中的数据挖掘
  数据挖掘在天文学上有一个非常著名的应用系统:SKICAT[外3]。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。
  (二)Bayesian网络中的数据挖掘
  Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握。
  然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,这就要求我们有一个合理的方法,从大量杂乱无序的数据中将它们找到,并填入条件概率表中去。
  而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。在Bayesian建模中,我们需要找到各变量之间的关联,这种关联与关系数据库理论中的函数依赖(Functional Dependence)近似,后者表示了關系表中各属性(Attribute)之间的依赖关系,而前者表示Bayesian网中各变量是关系表中的属性时,两者的表示含义是一致而和谐的。因而,只要在关系表的元组中发掘出函数依赖,便可以认清Bayesian网中各变量之间的关系,从而给建模予以理论依据,并且在数量上以具体值作为技术支持。
  将数据挖掘中函数依赖的挖掘与Bayesian网技术结合起来[外4],将带来以下好处:简化Bayesian网的结构; 根据所挖掘出的函数依赖的置信度,可以使Bayesian网中各结点关联更加清晰且有理可寻。
  四、总结
  数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。
其他文献
提出进一步完善线损概率评估模型的方法.采用具有相关性的正态分布随机数来模拟节点负荷功率状态;建立线路安全约束校正控制二次规划模型来模拟线路潮流控制状态;提出系统电
计算机软件工程为国民经济发展提供了先进的技术支持,对国民经济的发展具有十分重要的影响。计算机软件工程在计算机的应用和普及的过程中起到了至关重要的作用,为计算机未来的发展提供方向,这将很大程度上推进计算机软件工程的发展和变革。本文立足于现实,首先简要阐述计算机软件工程维护的意义,进而提出维护计算机软件工程的措施和方法,以期计算机软件能够应用到社会生活的方方面面,让公司的运营更高效,让人们的生活更便捷
论述了以聚甲基丙烯酸甲酯(PMMA)为盖板和底板、以聚酯膜为通道层的微流控芯片的制作流程。设计并制作了多个形状不同的微流控芯片,进行了实验研究和数据分析,系统研究了T型
随着数字信息时代的到来,数字化高新技术产品日益增加和完善。各行业为了提高和完善生产、管理水平和增加竞争性,都争先采用完善的高新技术产品,视频监控系统就是信息时代的产物
信息动态九则宏观经济中国税制改革目标确定今年的税收体制改革将包括以下几个方面内容:一是完善流转税制度;二是统一企业所得税;三是改革个人所得税;四是健全地方税;五是适时开征
期刊
目的 探讨入核受体抑制剂Importazole(IPZ)对多发性骨髓瘤(MM)细胞周期、凋亡的影响及其可能的作用机制.方法 用不同浓度IPZ处理骨髓瘤细胞系RPMI 8226和NCI-H929细胞,用四甲基偶氮唑盐比色(MTT)法检测细胞活性,用流式细胞术测定细胞周期和细胞凋亡,Western blot 法和凝胶迁移实验(EMSA)检测核内NF-κB的蛋白表达和DNA结合活性.结果 IPZ以时间浓
基于镍银异质结的光电流特性,通过设计制作纳米线搭载间隔为50μm的镍电极结构以及水力聚焦法组装银纳米线,制得了由单根银纳米线构成的镍银异质结光敏传感器。在实验中通过
2008年10月23日,欧玛嘉宝2008年度代理商客户大会在美丽的珠海隆重举行,来自全国各地的100多名代理商、客户和媒体代表参加了此次活动,共同见证了欧玛嘉宝在中国的成长历程和
研究结果表明中药天冬所含的多糖是其抗肿瘤的有效成分.我们通过提取的天冬多糖作用于体外培养的人肝癌SMMC-7721细胞株,探讨其对肝癌细胞的作用及机制。
为实现低成本原子力显微镜(AFM)探针的制备,开展了基于6英寸(1英寸=2.54 cm)绝缘衬底上的硅(SOI)的AFM探针制备方法的研究,实验分析了采用KOH湿法腐蚀纳米硅针尖的时间对针尖