并行关联规则算法优化的研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:yuexianglian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,如何充分利用这些数据信息并为企业决策者提供决策支持成为一个十分迫切又棘手的问题,数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是帮助人们在海量数据中发现信息和知识的工具,近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题,而关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域,其中最著名的挖掘关联规则算法就是Apriori算法。论文对数据挖掘和关联规则的主要概念和发展状况作了综述,给出了挖掘关联规则问题的正式的描述,对典型的串行关联规则算法和并行关联规则算法作了较深入的分析,并且介绍了这些算法的思想及其各自的优缺点;针对CD算法所存在的多次扫描和冗余存储等问题进行改进。CD算法的目标是减少通信量获得较好的任务分布性,使各处理器只对本地数据并行地进行处理,但算法的I/O量较重,数据结构重复,没有有效利用整个内存。因此论文在CD算法的基础上提出了改进的算法NCD:通过对参与候选集的元素计数的方法来减少产生候选集的组合和数据库的扫描次数以达到要求。这种方法是利用多个处理器的并行计算得到候选集S′,由于候选集无法保证是超集,有可能报告失效,这时还须扫描数据一遍或多遍,直到不再报告失效为止。这种算法让各处理器在不知道其他处理器的任何信息的情况下独立地计算局部大项集,直到所有的处理器都计算出了局部大项集后,才开始交换数据,增加或删除项集,得到最终结果,这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。事实上CD算法使用了一个简单的原则,即允许在其他处理器上进行并行地冗余计算和冗余存储,尽而避免大量通信。论文对所提出的NCD算法与CD算法在实验数据集上进行测试,测试结果说明在数据集相同的情况下NCD算法效率得到了有效的提高。
其他文献
随着业务的发展,企业一方面不断购进IT基础设施,增加IT系统的复杂性,另一方面又要求IT管理部门提供稳定可靠的服务。因此,企业需要实用、有效的服务管理系统来管理庞大的IT设
对流场的数值模拟历来是工程流体力学界十分感兴趣的课题,数值模拟与科学计算可视化技术的结合在流体力学研究中发挥了不可替代的作用。跟踪和驾驭方式的可视化技术是目前科学
大整数分解问题历来是数学家们关注的热点问题。随着信息技术的飞速发展,以RSA为代表的公钥密码体制得到了广泛的应用。RSA的安全性基于大整数分解是困难的这一命题,即:找到
网格计算的兴起与发展很大程度上改变了传统的计算模式。网格通过将地理上分布的异构计算资源进行整合,对其提供统一透明的访问接口,使得诸如大规模计算、分布式数据分析等相关
本文通过分析国内中小型企业信息化建设过程中遇到的问题,研究当前全球中小企业信息化建设发展的新模式,结合珍珠兰茶叶有限责任公司迫切需要解决的分销管理方面的重大问题,
在信息安全领域,有关计算问题复杂度的研究是一个重点内容。本文深入研究了一种基于图论思想的,分析计算问题复杂度的新理论——分层数据处理理论,并应用该理论来分析和解决信息
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wr
云计算已经成为下一代互联网发展的趋势,广泛部署在各种应用系统中。然而对于云计算的安全研究不是很多。本文首先对云计算进行简要介绍,然后针对当前云计算安全性存在的关键技
互联网的高速发展为人们的工作和生活提供了便捷的服务,特别是电子邮件凭借其快捷、廉价等特点,已经成为人们日常生活中不可缺少的一部分。但是,电子邮件的普及也使其成为一把双
机器学习算法的性能极大程度地受到训练数据质量的影响。大多数真实世界的分类任务中,不可避免地存在各种各样的标签错误,即类噪声。学术界提出了不少噪声处理算法,这些算法包括