关联规则并行采掘算法的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Redltng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,各个部门积累了海量数据,迫切要求从这些数据中自动地采掘有价值的信息和知识以支持决策。于是数据采掘技术应运而生。关联规则采掘是数据采掘中的一个重要分支,也是目前应用最广泛的一种数据采掘类型。 目前传统的关联规则采掘技术大多采用串行算法,例如Level-wise算法、non-level-wise算法以及不产生候选项目集的算法,其中R.Agrawal等人提出的Apriori算法是处理事务数据库中大项目集较为有效的算法。这些算法总的来说,都需要对数据库作多遍重复扫描,降低了采掘效率,不能满足大数据库的要求。随着分布式数据库的发展,提出了采掘关联规则更有效的并行算法,如Level-wise并行模式,DMA并行模式等,明显地提高了采掘效率。其中pSPADE算法是一种广泛应用于大型数据库上快速采掘频繁序列的有效并行算法,它将搜索空间分成了更小的基于后缀的类,可在每个处理器上独立地处理,实现了数据的本地性最大化和同步的最小化。 本文通过对pSPADE算法的研究,发现算法执行中,处理器将所有的类和它的中间id列表存于主存,导致了大量的内存开销。当处理更大的数据集时,容易产生内存不足而溢出。本文根据搜索算法内存管理的思想,提出了一种内存扩展方案来解决这一问题。在内存不足和获得足够内存两种情况下,把部分类写入磁盘,释放了内存空间,缓解了内存的压力。在程序需要时,再将写入磁盘的类加入共享队列作为多余的类处理。本文通过对这种方案的分析,指出了它的优缺点和适用范围。
其他文献
该文提出一种基于链接分析的领域文本概念间关系的获取方法.该方法利用链接文法对领域语句分析结果中的链接信息作为概念间联系的视角,能提供比单纯的概念对或词汇同现更丰富
该文是在东软股份社会保险事业部的通用交易平台的方向上进行的研究.对现行系统运行中存在的问题(比如短时间内大量用户的同时访问和网络的暂时故障)给予了很好的解决.系统中
随着SOA(Service-Oriented Architecture,面向服务架构)技术的发展,越来越多的企业在系统应用中采用了这项新兴的架构来满足企业业务的需求。XML(Extensible Markup Language
最近几年,随着数据信息量的激增,大数据概念兴起。大数据的处理分析受到了国内外各个研究领域的广泛关注。由于谷歌的成功案例,使得MapReduce框架成为了目前研究和使用最广泛
该文研究了基于等高线的地形模型建模的基本理论与方法,包括规则网格地形模型、不规则三角网地形模型的建模.对地形模型简化和多分辨率地形模型进行了讨论,总结了前人在这些
基于案例的推理(Case-Based Reasoning,简称CBR)以完全不同于基于规则的推理(Rule-Based Reasoning,简称RBR)的方式在人工智能(ArtificialIntelligence,简称AI)的众多技术中
随着Internet技术和WWW服务的发展,Web网络流量和网页访问延迟日益引起人们的关注,对这两个问题的解决影响了Internet的持续发展.代理缓存技术是解决这两个问题的最常用方法.
该文以研发机群计算软件为主要内容,利用Java开发一个跨平台的、基于消息机制的并行编程环境JNOW,为机群计算技术的研究提供新的思路.论文的工作主要集中在以下三个方面:1从
该文密切围绕水下目标识别这一核心问题,以实际工程应用为背景,主要采用时频分析与非高斯信号处理方法,对水下目标特征提取和分类算法这两个关键环节,展开了下列研究工作:(1)
世界经济的平稳增长以及机动车价格的大幅度下跌导致了最近几年机动车的私人拥有量在不断的上升。而我们在享受机动车带来的便利的同时,交通事故的增加也在困扰着我们。故此,