海量数据并行挖掘技术研究

来源 :北京交通大学 | 被引量 : 19次 | 上传用户:charles93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是应用一定的算法发现隐藏在数据中事先未知的、用户感兴趣的知识的过程。网络信息化时代,数据爆炸式增长,传统的串行算法在处理海量数据时,效率很低,如何提高海量数据挖掘的效率成为一个急需解决的问题,并行数据挖掘是解决这一问题的有效方法。增量挖掘利用已经挖掘出来知识对更新后的数据集进行挖掘,是提高挖掘效率另一个思路。MapReduce是Google提出的一种的简单编程模型,采用分布式并行方式处理海量数据。与其他并行编程模型相比,它在进行程序设计时无需考虑数据的划分、分配以及调度等问题,同时还能处理集群中节点失效。关联规则已经广泛的应用于电子商务、医疗诊断、气象预测、银行、电信等行业,一直都是数据挖掘研究的热点。本文以关联规则中发现频繁项集为出发点,在并行编程模型MapReduce的基础上对并行关联规则及其增量挖掘算法进行研究,旨在提高从海量数据中发现频繁项集的效率。本文首先对关联规则算法进行分析,针对Apriori算法的不足,结合向量的逻辑运算从扫描次数、候选项集生成、事务压缩三个方面对该算法进行改进,设计一种改进算法Apriori_M。其次对MapReduce并行编程模式进行深入分析,为提高Apriori_M算法处理海量数据能力,结合Partition的思想,提出该算法的并行化改进思路,并用MapReduce编程模式实现。然后对关联规则增量挖掘算法进行研究,在FUP算法的基础上,提出两种处理数据集动态增加的并行关联规则增量挖掘算法。整个算法分为产生候选项集与验证候选项集是否频繁两个部分,MFUP1算法串行产生候选项集,再并行地从候选项集中选出频繁的,适合新增数据集规模较小的情况,而MFUP2算法并行产生候选集,再并行验证是否频繁,适合新增数据集规模较大(与原数据集相比仍然较小)的情况。最后对提出的基于MapRedece的并行关联规则算法及并行增量挖掘算法的性能进行分析。为验证算法的性能,在开源的Hadoop云平台上进行仿真分析,实验结果表明并行Apriori_M算法、MFUP1和MFUP2算法能够高效的从海量数据中发现频繁项集,改进后的算法是可行的、有效的。
其他文献
二维图像投影和潜在的三维场景的关系的研究在光学和摄影领域中已有很悠久的历史,非刚体的三维运动重建(NRSFM)也随之而发展起来,成为研究的热点之一。非刚体三维运动重建是指从
近些年来无线通信技术发展日新月异,无线设备及无线数据需求量呈指数形式增长,引发了频谱拥塞。可见光频段因拥有丰富的免执照频谱资源而备受关注。可见光通信符合绿色通信的要
随着人工智能、计算机视觉的飞速发展,目标跟踪技术广泛应用于智能交通、视频监控等领域。目标跟踪效果受背景建模、特征选取、目标检测、应用场景等因素的影响。视觉特征具有
学生公寓是高校最重要的基础设施之一,确保其安全是学校最基本的职责。当前,绝大部分高校学生公寓管理系统都是基于校园一卡通或人脸识别单一方式实现身份认证的。然而,随着各类
在未来的通信系统中,多种无线接入技术共存。不同接入网络的技术特点不同,没有任何一种无线接入技术可以在带宽、时延、移动性支持能力、覆盖范围等方面满足用户的全部需求,
随着移动互联设备(智能手机、平板电脑)和视频应用(视频分享、视频聊天、视频广播)的大量出现,视频用户急剧增多。由于网络带宽的限制,保证视频用户的体验质量(QoE)是视频传输系统
协同过滤推荐技术在Netflix百万大奖赛中脱颖而出后,已成为推荐系统发展史上发展最快、应用最广的一类算法,但是它们仍然受到数据稀疏性和冷启动问题的严重影响。研究发现引
学位
本文针对光照不均匀图像进行增强算法研究。因Retinex算法与传统增强算法相比,在动态范围压缩、颜色保真和细节增强等多个方面的优点,因此本文对Retinex算法进行深入研究,并
基于法布里-珀罗(Fabry-Perot,F-P)结构的光纤光栅功能型器件是近年来受到颇多关注的具有重要应用前景的光纤器件,F-P结构光纤光栅器件的突出特点是功能多,形式多变,组成F-P腔的