基于MapReduce的改进关联规则算法研究

被引量 : 0次 | 上传用户:c42865
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据的数据量庞大,结构不一致和维度较多的特点,对于数据挖掘算法提出了新的需求:结果的有效性高,算法执行速度快,便于处理复杂数据格式。为了解决这些问题。本文应用经典的算法Apriori和MapReduce机制,在NoSQL数据库上,提出了一种Apriori改进算法-MDR-XHapr。首先,介绍MapReduce机制,MapReduce是一种便于分布式处理的计算框架,应用MapReduce框架,能够针对分布式数据库进行高效计算,充分利用计算机的运算能力。针对传统Apriori算法进行了分析,总结了传统Apriori算法的主要问题:候选集筛选和数据库扫描。同时对于算法的一些改进进行了分析。针对关联规则算法在并行分析过程中的性能瓶颈,总结出四点需要解决的问题:候选集问题,数据库扫描,结果有效性,并行化算法设计。随后,本文提出了MDR-XHapr算法。根据适应MapReduce机制的算法特点,对于Apriori算法进行改进,从而得到针对兴趣项集的MDR-XHapr算法。该算法使用键值对作为存储形式,能够存储异构数据。在数据导入过程中直接对数据进行筛选处理,将无效数据直接舍弃而不占用数据库存储空间,能够有效解决了数据冗余存储和类型复杂的问题。通过MapReduce框架,将传统的迭代算法进行优化,分解成三个部分Map(兴趣项集获得),Reduce(计数累加),Finalize(阈值筛选),将算法并行化运行在分布式数据库上,通过一次数据库的全局扫描,有效减少传统Apriori算法在大数据集上数据库扫描的开销。针对频繁项集挖掘最终结果的分析,提出了有关兴趣项集的概念。通过不使用迭代的兴趣项集提取,在保证了结果有效性的同时减少了候选集数量。最后,在NoSQL数据库MongoDB上,对MDR-XHapr算法进行了测试。采用了三种数据集:UCI标准数据集Adults和Illness,以及中国沿海13个海洋台站的真实海洋数据。使用Adults和Illness项集,在单机环境和分布式环境下对算法进行测试。实验表明,MDR-XHapr能够明显地减少候选集数量,只通过一次数据库全局扫描就可以得到兴趣项集,提高了算法的效率。使用海洋数据,针对于沿海行业比较感兴趣的维度进行兴趣项集挖掘。得到的结果与近几年的气象观测结果作比对,结果真实有效。证明了算法在实际数据上的可应用性。
其他文献
近年来大地震频发,高架桥作为交通网络中的重要组成部分,若在地震过程中发生了影响其使用性能的严重损伤,将导致交通网络的瘫痪,从而严重影响灾后的抗震救灾工作。诸多地震灾害调
不作为犯和罪数判断问题都是刑法学研究中的难点,我国学者通过借鉴大陆法系的刑法理论并结合我国实际情况,提出了适合我国国情的不作为犯理论和罪数判断理论。我国刑法学界对不
为了推动EPC网络(物联网)的发展,国际标准组织EPCglobal确立了EPC(Electronic Product Code,电子产品编码)信息服务标准,符合该标准的EPCIS (EPC Information Services,EPC信
随着现在医疗制度的变化,医院信息伴随药品回扣而产生新的含义,现在医院信息主要包括指对特定医院用药信息量的收集,通过这些信息可以得知不同医生的用药量,有了这些用药量信息,相
从实物虚化、虚物实化、高效的计算机信息处理和分布式系统四个方面概括介绍了DVENET中涉及的主要的虚拟现实技术。
胡芦巴为豆科植物胡芦巴的干燥成熟种子,在亚洲、地中海和非洲国家被广泛种植并用于食品、保健品领域,胡芦巴具有降血糖活性的报道由来已久,但降血糖活性物质及降血糖作用机制众
航空测控技术是电子行业高速发展的产物,其集计算机、自动化、测试等诸多技术于一体,具有较强的专业性和先进性,是航空事业中必不可少的技术之一。本文简要对航空测控技术进
食品安全问题不仅能够影响广大人民群众的身体健康和生命安全,还会影响国民经济的健康发展和社会和谐稳定,同时对国家以及政府的形象产生影响。有关数据显示,2014年最受关注的十
城镇化是工业革命后的重要社会现象,也是我国社会现在正在经历的一个历史进程。伴随这一历史进程,我国逐渐由农业为主的传统乡村社会逐渐向以工业和服务业为主的现代城市社会转
近些年来,随着多媒体和网络技术的迅速发展,越来越多的数字图像通过网络进行传输。数字图像逐渐成为人们获取信息的主要途径,同时图像的安全性问题得到了广泛的关注。在众多