基于关联规则的分类算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:tinnawang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支持度闭值和置信度阂值的强关联规则。目前,关联规则的挖掘技术也被成功的运用到分类中,其思想是把属性和类别联系在一起。本文主要针对如何更有效的挖掘类关联规则这一问题展开研究。   频繁模式和对应的关联或相关规则刻画了属性条件与类标号之间的有趣联系,因此,近来用于有效的分类。本文考察关联分类(associative classification),其中关联规则的产生和分析旨在于分类。其基本思想是,将搜索频繁模式(属性-值对的合取)与类标号之间的强关联。由于关联规则考察了多属性之间的高置信度关联,这种方法可能克服决策树归纳一次只考虑一个属性的局限性。许多研究发现,关联分类比诸如ID3等传统的分类方法更准确。关联分类方法的主要不同在于频繁项集挖掘所用的方法和导出的规则如何分析和用于分类。本文着重研究前两点,即频繁项集挖掘和规则的导出。   本文的主要工作如下:   对关联规则挖掘的基本理论进行了总体研究,并给出Aprior算法、FP-Growth算法和Eclat算法的介绍、算法示例以及效率分析。   尽管在关联规则的挖掘中,Apriori算法作为一种经典算法已经取得了不错的效果,但是它仍然在某些方面的表现不尽如人意。Apriori算法在进行操作时,必须对数据库进行反复的扫描,以得到的频繁项集的支持度。相比于已经存在的一些关联规则挖掘算法来说,FP-Growth有了长足的进步,但构造FP-树的过程仍然是复杂的。与Apriori算法和FP-growth算法相比,Eclat算法的优势也十分明显。Eclat算法仅需扫描一次数据库,并且在信息存储的过程中,它采用了垂直数据库,正因如此,计算支持度也相当简单。   对分类规则挖掘进行深入研究,针对决策树分类和关联分类算法,分别对ID3和CMAR算法进行介绍,并结合算法流程进行说明,对其性能进行分析。   ID3算法之所以称为一种经典的决策树分类算法,作为数据挖掘和机器学习领域中的一个范例,是因为其结构简单,便于读者理解,并且理论也是十分清晰明了的。但是它在分类过程中,只能考虑单一属性,无法取得很好的分类效果。   CMAR(Classification Based on Multiple Class-Association Rules,基于多关联规则的分类)在频繁项集挖掘和分类器构造方面都不同于CBA。CMAR采用FP增长算法的变形来发现满足最小支持度和最小置信度闽值规则的完全集。FP增长使用称作FP树的树结构记录包含在给定数据集D中所有频繁项集信息,仅需要扫描两次数据库。CMAR采用类FPgrowth算法来挖掘类关联规则,虽然只需要扫描两次数据集,但在挖掘过程中需递归地建立条件FP-tree,这使得算法在执行时内存,消耗太大。   目前对于关联分类方法的改进主要考虑这几方面问题:1)减少扫描数据库次数2)产生尽可能少的候选集3)减少构建FP一树的消耗以及尽可能地节省内存。   在已有的对关联规则以及分类规则研究的基础上,我们提出了一种新的挖掘类关联规则的算法--MCAR(Mining Class Association Rules),它主要有以下几个特征。   首先,MCAR算法紧需要扫描一次数据库,并在此过程中得到全部的规则,而不是像以往的算法那样需要对数据库进行多次扫描。第二,对于不能产生有效规则的无效项集,我们使用了类频繁项集修剪策略对其进行修剪,使无效的规则在产生之前就被删除。第三,为了改进某些复杂的结构如FP-树,我们使用了使用了垂直数据库的形式,并使用了交操作来计算支持度。   我们用一个算法示例来说明MCAR算法的有效性,并证明了该算法避免了大量冗余的计算,因此极大了提高了类关联规则挖掘的效率。试验结果证明,MCAR算法所产生的类关联规则集合和其他类关联规则算法所得到的集合相比数量明显减小,并且算法结构简单易于理解。
其他文献
随着互联网的发展,Web应用技术不断推陈出新。这期间,客户端和服务器端的通讯机制发生了巨大改变。以通讯机制中的通讯方式和数据交换格式为依据,Web应用可以分为三类:传统的文档
随着互联网的高速发展和广泛应用,web网已成为最大的信息资源仓库,包含几乎任何领域内的数据资源,使用户能方便的获取或共享web空间的信息资源。但信息资源过载始终是制约web
移动互联网络的发展,便捷了移动用户使用,加速了无线互联网的快速发展,其巨大的发展前景成为当前全球互联网络的重要发展内容。移动无线网络中的ad hoc网络因具有各节点地位平等
中文Web信息博物馆中保存了大量的知识,如何有效的挖掘和利用这些知识是一个有意义的课题。本文认为历史网页中站点首页、文章型网页、主题型导航网页都是很有价值的网页。从
虚拟化技术是使若干的操作系统相互隔离的运行在一台物理机上的技术,起源于上个世纪六十年代,近年来在各大公司和科研机构的带领下虚拟化蓬勃发展,相关领域的研究工作和研究成果
双目视觉是计算机视觉领域的一个重要研究方向,它通过模拟生物视觉,使计算机具有利用二维图像感知三维环境信息的能力。立体匹配作为双目视觉中最关键和最困难的部分,近年来
随着数字图书馆的发展和其在人们学习、工作和生活中的广泛使用,它所依赖的文献数据急剧增长,对数据处理的要求也日益复杂。文献数据海量增长和处理操作多样化使得数据处理花
火星作为太阳系内最类似于地球、最有可能存在生命的行星,吸引着诸多国家和机构的注意力。目前,我国的火星探测工程已经列上日程。地火转移轨道的设计是火星探测的先导,降低探测
学位
软件国际化是指,在设计软件时将软件与特定语言与地区脱离的过程。它对于开发者来说是一个有挑战性的任务,特别是在软件当初设计时没有考虑这个问题的时候。在软件国际化过程
大学堂是一个分布式的教学视频共享系统,具有高可靠性,可扩展性。本文基于大学堂的实际应用需求-在服务器间传输大的视频文件,提出了一种基于多路径与并行TCP的数据传输技术,