分布式数据环境下关联规则挖掘算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:sharapova60
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就需要一种强有力的数据库分析工具。数据库知识发现(KDD)就是为顺应这种需要而发展起来的一门学科,它用来进行数据分析,发现重要的数据模式,并且已经成为一个重要而活跃的研究领域。数据挖掘被视为数据库知识发现过程的一个基本步骤,它已引起了信息产业界的极大关注,其主要原因是“数据丰富,但信息贫乏”,为了有效利用这些海量数据,如何将它们转换为有用的信息和知识就成为当务之急。随着计算机和网络技术的发展,我们可以方便地获取Internet上的各种信息资源,传统的集中式数据挖掘已经不能满足需要。企业的数据资源往往规模大、动态增长并且存在于地理上分布的各个数据库中,把所有数据集中在一起进行处理既不可取,也不可行,这使得数据挖掘系统必须具有分布式挖掘的能力。基于分布式信息资源的数据挖掘日益受到人们的关注,成为信息科学研究领域中一个新的课题。关联规则挖掘是近些年来研究较多、应用也最为广泛的数据挖掘方法。关联规则挖掘于1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间的联系为目标,后来的研究者们对问题原型进行了多方面的改进和扩充。关联规则挖掘问题的关键是频繁项集的产生,Apriori算法是一种经典的挖掘布尔关联规则的算法,本文将用它在局部站点来产生频繁项集。分布式数据环境下的关联规则挖掘算法中,时间开销主要体现在两方面:(1)频繁项集的确定;(2)网络的通讯量。本文提出了一种基于Web Services框架的改进算法DARM(Distributed Association Rules Mining),成功地克服了FDM算法中可能造成频繁项集丢失的缺点,保证了数据挖掘结果的完整性和正确性,同时也减少了站点间的通讯量。
其他文献
Peer-to-Peer技术,也叫P2P计算,是一个新出现的有可能改变下一代Internet架构的研究热点。在P2P系统中,数量巨大的节点(连接在互联网上的电脑)可以聚集在一起共享它们的资源、信
入侵检测技术是当今网络安全的一项重要技术,入侵检测系统作为一种主动防御手段,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵,因此被认
蜜罐在网络安全领域是一种新的技术。它通过欺骗黑客达到追踪的目的,对黑客攻击进行追踪和分析,能够捕获黑客的键击记录,了解到黑客所使用的攻击工具及攻击方法。研究型蜜罐需要
随着无人机技术的广泛应用和深入发展,航拍视频运动目标检测与跟踪已经成为计算机视觉领域的研究热点之一。作为无人机监控系统的关键技术,航拍视频运动目标检测与跟踪通过分析
海量图像检索是当前活跃的研究方向,它有着广阔的应用前景,在计算机领域中得到了广泛的关注。但同时它又是一个极为困难的问题,困难主要来源于海量图像检索环境经常是一个规
高端容错计算系统是关键应用领域中的重要信息化设备,此类系统一方面具有较强的事务处理能力,另外一方面具有较高的可靠性,可长期提供高速、稳定的信息处理服务。高端容错计
近年来,可穿戴计算机、移动计算及无线自组网技术飞速发展,应用移动对象的场合越来越多,另一方面,GPS技术和传感器技术快速发展,为移动对象提供位置相关服务的导航系统有了越
跨系统切换是指移动终端从一个通信系统被切换到另一个不同的通信系统,本文主要研究和实现无线网络控制器中移动终端从第三代移动通信系统到第二代移动通信系统的跨系统切换,
可穿戴计算机(wearable computer)是一种新概念的个人移动计算系统。它是伴随着计算机不断向超微型化发展应运而生的,也是“计算机应以人为本”这一理念的必然产物。SOPC是可
生物信息学已成为能够改变科学发展的决定性力量之一,网格计算为生物信息应用提供了强大的计算和存储平台。然而,网格应用首先需要解决服务集成、资源异构、作业管理和调度等