基于SPARK的海量数据频繁模式挖掘算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：bhf10116

【摘要】

：

频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频

【作者】

：

赵焱德

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

频繁模式 Spark 时间序列压缩感知重要点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程,随着数据量的增加,人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集,研究基于分布式计算框架Spark的频繁项集挖掘算法。本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本,然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点,并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源,快速解决大规模数据集上挖掘频繁项集的需求。除此之外,这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法,为了能够在数值型的时间序列数据集上挖掘频繁模式,本文第二部分的主要内容是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量,还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势,从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发,通过对以往工作的扩展,设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列,并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求,基于感知重要点的压缩算法能够很好的保留序列的趋势,具有非常好的可视化效果。

其他文献

具有词判别力学习的短文本话题模型研究

随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速

学位

短文本聚类话题模型判别力半监督

丝绸纺织知识管理系统的研究与设计

本课题来源于山东丝绸纺织职业学院在引进知识管理方法、并建设相应的信息化系统过程中的实践探索。知识管理(KM, Knowledge Management)是网络新经济时代的新兴管理思潮与方法,管理学者彼得·德鲁克早在一九六五年即预言：“知识将取代土地、劳动、资本与机器设备,成为最重要的生产因素”,“21世纪的组织,最有价值的资产是组织内的知识工作者和他们的生产力”。在信息时代里,知识已成为最主要的财

学位

知识管理知识战略个人知识管理Delphi数据库

整型权值神经网络的粒子群优化研究

人工神经网络在一定程度上受到生物学的启发，是自然界生物神经网络的一种近似和模拟。其主要从两个方面进行模拟：一种从结构和实现机制方面进行模拟，即人工神经网络结构模拟生物

学位

整型权值神经网络粒子群优化模式识别嵌入式控制系统智能车

基于非平衡数据的适应性采样集成分类器的研究

现在每天都有大量数据需要提取和分析,数据挖掘技术在许多实际应用中获得巨大成功,分类模型已经在许多应用场合得到广泛应用,如原油泄漏检测、信用卡检测、医疗检测等等。由

学位

数据挖掘集成算法非平衡数据集合成样本

大数据时效性关键技术的研究

随着大数据时代的到来,海量数据在企业以及人们的日常生活中都有广泛的应用。数据质量对数据的应用效果起着至关重要的作用,其中数据时效性问题是数据质量的主要影响因素之一

学位

大数据数据质量数据时效性规模性高速性多样性

高效可分电子现金系统研究

近年来随着电子商务的蓬勃发展，作为电子商务基础的电子现金领域的研究得到了国内外科研人员、工程技术人员的广泛重视。作为一种新兴的以电子(或数字)模拟真实货币的技术，电子

学位

电子现金双线性映射数字签名可分割性二叉树结构单向累加器电子商务

电力调控大数据集成及管理技术研究与应用

随着电力调控系统的服务范围不断扩大,数据来源增多,数据类型多样,数据规模和处理压力急剧增大,调控业务对海量多源数据分析处理的要求不断提升。本文面向电力调控系统大数据

学位

数据集成数据管理ETL统一数据模型

基于蚁群算法的无线传感器网络能量有效路由算法研究

随着半导体技术、微系统技术、嵌入式技术和无线通信等技术的高速发展，使得微传感器节点的处理能力更强、功能更丰富、体积更微型化，能够集信息采集、数据处理和无线通信等功能

学位

无线传感器网络信息素能量均衡有效路由算法蚁群算法

改进的模糊聚类算法及其在电信欠费数据中的应用研究

随着电信市场的迅速发展,目前我国通信设备的覆盖率已到达了很高的水平,手机用户的数量逐年增加。电信运营商要保持市场的高效运作,必须依据不同地区,根据不同的人群来划分不

学位

模糊聚类FCM算法信息熵加权参数欠费数据

基于声发射的三维编织复合材料承载分析研究

三维编织复合材料具有优越性能，广泛应用于航天、航空、交通、汽车等领域。研究三维编织复合材料内部特征状况、材料力学性能及微观变形，对于该材料的应用设计和编织工艺改进具

学位

声发射三维编织复合材料力学性能损伤积累程度

基于SPARK的海量数据频繁模式挖掘算法研究

与本文相关的学术论文