一种改进的并行关联规则挖掘算法

被引量 : 0次 | 上传用户:yaoyao0313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘的主要技术之一,这缘于关联规则数据挖掘在商业等领域的成功应用,故而使它成为数据挖掘领域中最成熟、最重要、最活跃的研究内容。挖掘关联规则问题的核心是发现频繁项集。现今已有多种发现频繁项集的算法,如Apriori、Partition等算法。为了提高挖掘频繁项集的效率,引入了并行化技术。CD算法是对Apriori算法的简单并行化,其目的是减少通信量,获得较好的任务分布性。本文针对CD算法存在的I/O量较重、数据结构重复、不能有效利用整个内存等问题,提出一种改进的并行关联规则挖掘算法。该算法在遵循CD算法思想的基础上,采用动态数据集划分技术对数据库中的数据先进行划分,然后再由控制处理器分配至各个处理器,以此来减少I/O操作量;提出通过由一个控制处理器来控制其它处理器的方法,实现挖掘部分的并行化;在此基础上,提出在各个处理器上应用P-tree结构来存储数据,以达到优化各个处理器中所存储数据的结构、有效利用内存的目的,从而快速找出频繁项集,实现对事务数据库中数据的有效挖掘。最后对两种算法进行了实验验证,结果表明本文提出的改进算法能够更加有效地提高对频繁项集的挖掘效率,达到了预期的初步并行化效果。
其他文献
在高速公路连续下坡路段,如何解决好交通安全问题,越来越受到高速公路运营管理部门的重视。在众多的解决方案中,除了采取完善安全标志,设置强制减速停车区、防撞墙、避险车道
中医医疗服务体系由中医医疗机构和其他医疗机构的中医药卫生资源共同组成,目前已基本形成覆盖城乡的医疗服务网络,向全国提供了大量以中医药服务为产品的医疗服务。但由于体
本文以"探究功与速度变化的关系"一节的说课教案为例,对高中物理说课进行探索。
<正>清代书法理论界虽然在溯源问题上各抒新见,但在追求"汉法"上基本达成共识。"六书"在文字学研究上处于理论核心和基础地位,清代书家对《说文》的依赖贯穿始终,其中有着"求
介绍了项目和项目管理的定义,阐述了项目管理的发展过程,详细论述了现代项目管理5大工作过程组和各工作过程组具体的过程范围及相互之间的作用。
在分析高性能混凝土特点的基础上,提出了影响混凝土耐久性的因素,分析了掺入粉煤灰、硅粉提高混凝土耐久性的机理,通过高性能混凝土的配制及应用实例,阐明了在混凝土中掺入粉
作为经济发展中的一种特殊形态,口岸经济是以口岸为中心,以口岸城市和邻近区域为载体,以一定的海陆腹地为依托,以聚集于口岸的相关产业为支撑,以综合运输体系为动脉的外向型
<正> 一、世界之交湖北粮食供需平衡面临的巨大压力 (一)生产压力 1.耕地存量的减少和质量退化,严重制约粮食生产量的增加。湖北现有耕地面积337.6万公顷,和改革初期相比减少
进入新世纪以来,互联网科技术飞速发展,电子商务业日益发达。金融业与互联网关系融入越来越密切,各种电子支付手段与日俱增,并已逐渐渗透到我们日常生活中。本文通过对一种新
<正> 传销,作为一种新型的直销方式,曾被经济学家称为“全球最有前途的一种销售方法”。自从1990年,广州雅芳公司——中国的第一家直销公司建立以来,两三年中,传销从南到北,