基于SPARK的海量数据频繁模式挖掘算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bhf10116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程,随着数据量的增加,人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集,研究基于分布式计算框架Spark的频繁项集挖掘算法。本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本,然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点,并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源,快速解决大规模数据集上挖掘频繁项集的需求。除此之外,这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法,为了能够在数值型的时间序列数据集上挖掘频繁模式,本文第二部分的主要内容是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量,还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势,从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发,通过对以往工作的扩展,设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列,并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求,基于感知重要点的压缩算法能够很好的保留序列的趋势,具有非常好的可视化效果。
其他文献
随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速
本课题来源于山东丝绸纺织职业学院在引进知识管理方法、并建设相应的信息化系统过程中的实践探索。知识管理(KM, Knowledge Management)是网络新经济时代的新兴管理思潮与方法,管理学者彼得·德鲁克早在一九六五年即预言:“知识将取代土地、劳动、资本与机器设备,成为最重要的生产因素”,“21世纪的组织,最有价值的资产是组织内的知识工作者和他们的生产力”。在信息时代里,知识已成为最主要的财
人工神经网络在一定程度上受到生物学的启发,是自然界生物神经网络的一种近似和模拟。其主要从两个方面进行模拟:一种从结构和实现机制方面进行模拟,即人工神经网络结构模拟生物
现在每天都有大量数据需要提取和分析,数据挖掘技术在许多实际应用中获得巨大成功,分类模型已经在许多应用场合得到广泛应用,如原油泄漏检测、信用卡检测、医疗检测等等。由
随着大数据时代的到来,海量数据在企业以及人们的日常生活中都有广泛的应用。数据质量对数据的应用效果起着至关重要的作用,其中数据时效性问题是数据质量的主要影响因素之一
近年来随着电子商务的蓬勃发展,作为电子商务基础的电子现金领域的研究得到了国内外科研人员、工程技术人员的广泛重视。作为一种新兴的以电子(或数字)模拟真实货币的技术,电子
随着电力调控系统的服务范围不断扩大,数据来源增多,数据类型多样,数据规模和处理压力急剧增大,调控业务对海量多源数据分析处理的要求不断提升。本文面向电力调控系统大数据
随着半导体技术、微系统技术、嵌入式技术和无线通信等技术的高速发展,使得微传感器节点的处理能力更强、功能更丰富、体积更微型化,能够集信息采集、数据处理和无线通信等功能
随着电信市场的迅速发展,目前我国通信设备的覆盖率已到达了很高的水平,手机用户的数量逐年增加。电信运营商要保持市场的高效运作,必须依据不同地区,根据不同的人群来划分不
三维编织复合材料具有优越性能,广泛应用于航天、航空、交通、汽车等领域。研究三维编织复合材料内部特征状况、材料力学性能及微观变形,对于该材料的应用设计和编织工艺改进具