频繁闭项集并行挖掘算法的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ikkonen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域中的一个重要分支,其任务是发现所有满足最小支持度和最小置信度阈值的强规则。近年来,其在市场营销、决策辅助等领域广泛而成功的应用,使其成为数据挖掘研究中的一个热点。频繁模式挖掘是关联规则挖掘的关键,也是关联规则挖掘研究的重点。在关联规则挖掘中,常用的频繁模式有频繁项集、频繁闭项集以及最大频繁项集。最初,关联规则是通过挖掘频繁项集来产生的,然而频繁项集的规模往往较大,这严重的影响了关联规则的挖掘效率。由于频繁闭项集的数量远小于频繁项集,而且通过频繁闭项集能得到所有的频繁项集,通过频繁闭项集产生的关联规则能得到所有的规则,因此当前通常的做法是使用频繁闭项集代替频繁项集来挖掘关联规则。然而,为了加快关联规则产生的速度,仅仅有频繁闭项集是不够的,还需要将频繁闭项集之间的包含关系用某种有效的数据结构保存起来,比如频繁闭项集格。通过格,一个项集能够容易的找到它所有的子集和超集,从而加快规则产生的速度。并行化是提高问题解决效率的有效方法。随着数据集规模的不断增大,为了更有效的解决关联规则挖掘的实际问题,并行技术被引入其中,并得到了广泛而深入的研究。然而现有的关联规则并行挖掘算法,几乎都是针对频繁项集的,而对于频繁闭项集的并行挖掘算法几乎没有。本文对关联规则挖掘进行了一般性的论述;分析了国内外研究的现状;研究了典型的频繁项集、频繁闭项集挖掘算法以及频繁项集并行挖掘算法的算法思想和优缺点;提出了并行挖掘频繁闭项集的有效算法P-CHARM,以及并行挖掘频繁闭项集并建格的有效算法P-Q-CFIsL。P-CHARM有两个版本,P-CHARM I和P-CHARM II。其中,P-CHARM II是P-CHARM I的改进。P-Q-CFIsL是Q-CFIsL的并行化,Q-CFIsL是本课题组提出的快速挖掘频繁闭项集并建格的有效算法。本文通过实验证明了P-CHARM和P-Q-CFIsL的有效性。
其他文献
近年来,无线传感器技术的发展迅猛,其在国防军事、工农业生产控制、市政监控等方面被广泛应用。但是,无线传感器节点的电池电量是限制无线传感器工作时长的一个重要瓶颈。因
本文主要研究基于图像识别的柑桔溃疡病智能检测技术。柑桔溃疡病是一种致毁性的植物检疫性病害,极易扩散,严重危害到农业生产,而传统的病害检测方法不能满足现代生产需要。本文
NVD(Next-Generation Versatile Disc)是具有中国自主知识产权的一种光盘标准。它的图像清晰度高、支持的音视频文件格式多、用途广泛、成本低廉、维护方便、免受国外专利制
由于网络应用日趋复杂,呈现多元化、多服务、多应用等特征。单一的检测方法和检测系统难以检测各种复杂攻击,综合多种检测技术(误用检测、异常检测)和多个检测系统能够有效提
互联网技术的飞速发展使得人们的生活越来越信息化,也越来越便利。然而,由于互联网系统的开放性,存在恶意的组织或个人想要利用这些信息做坏事。如何在这个开放的环境中保护
光同步数字传输技术是近年来发展极为迅速的通信网底层传输技术,也是目前最为成熟的传输技术之一。我国对通信带宽的需求非常大,各大电信运营商都建设了覆盖范围广泛、传输容
随着现代密码技术和计算机技术的发展,两者的结合日趋紧密,密码协议和算法的应用通常都是以软件方式在通用处理器平台上实现的,或者运行在定制的硬件单元上,这类密码芯片在现
随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。单片机实验教学系统作为一种可编程类系统,正确识别并执行
传统的文档(静态文档)主要承载内容的格式描述信息,以显现为主要目的。智能文档则可以容纳文档中的数据内容与格式信息(式样),并指定操作行为,文档因此兼备静态的信息表示与动态
高速缓存一致的非对称访存系统(CC-NUMA)是当前被广泛应用的多机系统之一。与传统的MIMD系统一样, Cache一致性问题也是CC-NUMA系统必须首先解决的问题。因为其对系统性能和