关联规则的并行开采研究

来源 :中国地质大学 中国地质大学(武汉) | 被引量 : 0次 | 上传用户:cstmddn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库应用的不断深化,数据库的规模急剧膨胀,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入研究的领域。数据库的知识获取以及数据挖掘便是数据利用的有力武器。在数据挖掘中关联规则的挖掘获得了广泛的关注,因为其表达式易于理解,很高的可用性,成为各企业,尤其是零售业最为关注和最常用的数据挖掘技术。关联规则是从历史的大规模的数据中获得项集之间的相互关联关系,抽取出有用的和感兴趣的模式,主要任务是发现数据库中的大项集,因为这个任务在大规模数据库基础上是耗时的操作,所以现在的主要研究方向都集中在大项集的有效生成上。 本文首先对KDD/DM的主要概念和最近的发展作了综述,给出了挖掘关联规则问题的正式的描述,然后对典型的关联规则算法Apriori算法和AprioriTid算法作了较深入的性能分析,然后给出了几个典型算法的思想介绍和优缺点分析;提出了关联规则的并行挖掘策略并且对相应的并行算法进行了性能分析。通过深入分析挖掘关联规则的串行算法和并行算法的优缺点,并且在PVM环境下对基于Apriori算法的并行算法进行了实现。本文的目的在能够提供一个灵活和可扩展的计算平台,利用现在相对廉价的单机进行网络计算,充分发挥网络计算的优势。 本文共分六章,第一章为绪论,介绍了本文研究背景,总结了研究工作以及论文的组织结构。 第二章:简单介绍了数据挖掘技术的情况。 第三章:重点介绍了关联规则挖掘的算法思想,用于本文的正式问题描述以及关联规则产生和发展的概况。重点介绍了Apriori算法和AprioriTid算法的思想,实现的代码以及优缺点,然后给出了几个典型算法的思想介绍和优缺点分析,最后讨论了关联规则挖掘中的几个问题。 第四章:给出了本文的核心—关联规则并行开采的策略及算法。首先提出了关联规则的并行开采策略,然后详细描述了并行开采的类型以及基于这些类型上的并行开采关联规则的常用算法,最后介绍了其它的一些并行算法并分析了它们各自的优缺点。 第五章:介绍了一种基于Apriori算法的并行开采算法的思想并在PVM环境下对该算法进行了实现。 第六章:总结本文的工作并指出了进一步研究的方向。
其他文献
当前,心理问题凸显,然而传统心理学方法很难及时获取心理状态,制约了心理服务的时效性。近些年来,利用网络数据预测人们的心理状况逐渐成为研究热点,由于其利用客观数据,普及面广且
该文首先阐述了该课题的研究背景和意义.接着,介绍了感知音频编码算法的基本原理和算法框架.然后,重点对感知音频编码算法中用到的关键技术心理声学模型的原理及实现方法进行
该文从信息系统安全评估标准入手,讨论分析了信息系统安全等级评估系统的组成、框架、评估方法和工具、评估模型以及评估流程.并在此基础上深入研究和探讨了安全评估系统中的
程序设计语言的编译是很复杂的过程,语言有多种不同的风格,不同的语言可能需要不同的编译技术.ATLAS是一个广泛应用于军事和电子测试的标准测试语言,与一般的程序设计语言有
地理信息系统是一种为了获取、存储、检索、分析和显示空间定位数据的信息系统.从1963年加拿大测量学家R.F Tomlinson首先提出地理信息系统这一术语开始,GIS技术经过了它的开
CMM (the Capability Maturity Model),软件能力成熟度模型,是美国卡耐基梅隆大学(CMU)的软件工程学院(SEI)的一项著名研究成果,该模型可用来评估软件开发机构的软件成熟度级别,
随着企业信息化、网络化的逐步深入,企业内部的网络基础设施与工作组计算环境日益完善,这为工作流技术在企业中的应用、实施提供了可能的条件.工作流技术作为一种实现企业过
该文在总结归纳C2体系结构风格对软件重用所具有的指导性意义基础之上,提出了把C2体系结构风格引入到分布式应用系统开发和企业应用系统开发中,并提出了基于J2EE技术实现C2体
政府信息化建设的重点已经从政府机关内部的办公自动化系统以及政府对外信息发布和反馈平台建设向政府部门间的信息共享和通信系统建设转移,系统建设更侧重于信息的充分共享
互联网络技术的飞速发展,网络管理的地位也越来越重要.如何保证网络高效、安全而且稳定的运行是网络管理所要达到的目的.该文首先介绍了网络管理的发展趋势和重要性.然后介绍