分布式关联规则挖掘算法的研究与应用

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:jeep_lee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来信息技术飞速发展,特别是数据库技术的更新换代,各个领域的数据都出现了爆炸性增长。与此形成鲜明对比的是,从数据中提炼出来的对人们决策有价值的知识却十分匮乏。数据挖掘正是在这一背景下诞生的一门新学科。关联规则挖掘是数据挖掘领域当前研究的主要热点之一,用于确定数据集中不同数据项或属性之间的联系,找出有价值的多个域之间的依赖关系。关联规则挖掘具有计算量大,I/O负载集中的特点,一方面,许多关联规则的实际应用涉及到海量数据,即使对算法进行了优化,在单处理机上使用串行算法进行挖掘所需要的时间可能也是无法接受的;另一方面,在实际的应用领域,业务数据存储于多个地点,各个站点之间需要共享全局规则模式,而且这些站点的数据有可能会发生一些动态地增量变化,在这种情况下,必须依靠高性能分布式关联规则挖掘来有效地完成挖掘任务。频繁项集挖掘是生成关联规则的关键步骤,其效率问题是关联规则挖掘中的一大难点和热点。在前人研究的基础上,论文基于分布式环境中的数据集,和所涉及到的算法数据结构,对全局频繁项集的挖掘问题进行了深入的分析和研究,从分布式环境挖掘中的剪枝策略、网络通信策略和增量挖掘方法等角度着手,进一步改进了全局频繁项集的挖掘算法,文章的最后还例举了算法的应用。概括一下本文工作,主要包括以下几个方面:(1)提出一种基于频繁模式树与最大频繁项集的分布式全局频繁项集挖掘算法BFM-MGFIS。该算法引入子集枚举树以实现有序挖掘与优化全局剪枝策略,有效地减小了候选项集且提高了并行性,最后,通过实验证明提出的算法是有效可行的。(2)讨论数据更新情况下规则模式的维护与更新,提出一种增量式的分布式全局频繁项集挖掘算法,该算法基于CanTree前缀树,使得频繁模式不再依赖于频繁1项目集序列,而是由用户指定的某一序列,据此对数据项进行排序,这样数据项的排序与更新无关,且树中保留了数据库的所有信息,仿真实验证明提出的方法是有效可行的。(3)围绕提出的两种算法实现了分布式关联规则挖掘模拟系统,将两种算法应用于实际的生物学数据分析中,以发现野生蘑菇的性状与其毒性的关联关系。
其他文献
语音识别在实验室环境中已取得了令人满意的效果,但当运用到实际环境时却往往出现识别率显著下降的情况,如何提高噪声环境下的语音识别鲁棒性是当今语音识别研究中最为重要的问
随着计算机、网络和多媒体技术的迅速发展,人们越来越多的接触到大量的视频信息。如何从包含大量信息的庞大视频库中检索出所需要的有用信息,已经是一个迫切需要解决的研究难
随着信息网络化和印刷技术的不断发展,文档的复制和传播变得非常容易,文档信息的安全面临着极为严重的挑战。数字水印作为一种潜在的解决方案,备受青睐。本文重点研究了提升
近年来,云计算的研究与应用在学术界和行业界都取得了巨大的进展,它为众多的用户提供了经济和便捷的服务,使越来越多的公司和用户计划将其数据上传到公共云。但是,由于数据所
随着计算机技术的进一步发展,信息产业已经渗透到当今社会的各行各业。在教育领域,如何突破传统教学模式及考试模式,使教育信息化在当前教育教学中发挥更大作用是我国当前教
随着互联网的高速发展,Web搜索引擎已成为人们获取信息的必不可少的工具。很多情况下,用户查询的信息都与位置信息相关,比如旅游信息,某地商业信息和某地发生的时间信息。用
随着计算机技术和网络技术的快速发展,Internet已经将人们带入了一个更为精彩的虚拟世界里。很多网站为了丰富用户体验,充分地利用了动态脚本语言,如JavaScript,然而这种技术
用户界面的设计在软件开发中变得越来越重要,同时也变得越来越复杂,成为制约软件开发效率提高的一个重要因素。如何处理用户界面开发中存在的工作量大、设计复杂而导致的程序
半导体技术的进步和应用对计算能力的需求不断促进着体系结构的发展。当前主流的多核处理器,由于其通用性设计,即使将来单芯片集成更多的通用核,也难以满足计算密集型应用的高性
随着多媒体技术和图像采集设备的发展,图像数据以前所未有的速度增长,如何有效地分析、组织和管理这些海量的图像资源,使得基于内容的图像检索系统成为研究的热点。图像检索