基于Spark的流数据聚类方法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:kongzathu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的迅速发展,无论是当前的Web搜索、物联网系统、传感器网络等领域,还是传统的工业、医疗、金融、交通等行业,实时都会有数据在产生。这些数据由于产生速度较快,数据量较大,数据格式比较复杂,将这些流数据存储下来不仅成本高,且实现实时的数据分析较困难。而数据分析中的聚类是一种无监督的学习,其过程是根据集合中数据的相似度进行划分,使得同类中的数据的相似度高,而不同类间的尽可能低。根据实时产生的流数据的特点,传统的聚类算法并不能实现实时地分析。所以,如何对流数据进行实时的聚类分析成为当今数据挖掘方向的一个热点问题。近年来,伴随着大数据分布式处理框架的逐步成熟,对流数据实时、高效率、稳定的分析处理有了新的实现思路。相较于Hadoop平台,Spark平台本身所具有的基于内存计算的优势,使得Spark平台在算法运算迭代过程中将中间结果缓存于内存,减少了磁盘的读取次数,达到节省算法运行的时间的目的。同时,Spark还具有高容错率以及高吞吐量等优势,让Spark成为了流数据聚类挖掘中应用十分广泛的计算模型之一。本文通过将流数据聚类算法与分布式内存计算框架相结合,进行了以下几个方面的研究:(1)首先,对传统的聚类算法和流数据聚类算法进行了分析与研究,对不同的聚类算法根据其特征的不同进行了划分,总结出了各类算法的优缺点。对Hadoop、Storm平台的原理以及基本架构进行了分析,同时对Spark平台的特点与相关核心模块进行了分析。(2)其次,针对流数据所具有的实时性的特点,基于流数据聚类算法Clustream,提出了SClustream算法。SClustream的在线微聚类层通过引入时间权值函数来解决历史数据问题;离线宏聚类层基于模拟退火算法(SA)思想对K-Means算法进行改进,通过SA对K-Means聚类结果进行全局寻优,一定程度上优化了聚类结果,最终使得SClustream聚类算法结果的准确度得到了的提升。(3)最后,通过对Spark平台的分析,实现了Clustream以及SClustream优化算法的并行化,并基于Spark平台运行。通过对两种算法进行一系列的分析对比实验,分析与解释了本文中提出的优化算法在分布式内存计算框架下的运行效率以及优势,表明了SClustream并行化算法较Clustream在聚类准确度、加速比等方面得到了一定程度地提升。
其他文献
2007年11月,香港电影资料馆出版了“香港影人口述历史丛书”的第四册《王天林》。这位上海籍老导演毕生拍片超过400部,1970年代后更是TVB崛起的重要推手,耄耋之年,他娓娓道来香港
浅谈初中英语新教材的编写特点姚晓云经过两年多对九年义务教育全日制初级中学英语教材的教学实践,我感到新教材有如下几个特点:1、新教材的编写不再以语法为主要线索来安排教学
黑色电影许多都改编自硬汉派作家的小说,就连黑色电影(Film-Noir)这个名词,也是来自于"黑色小说"的概念。黑色电影的源起,正是这些硬汉小说在30年代,雷蒙德·钱德勒、达
分析了目前计算机实验中所存在的主要问题和弊端,并针对这些现象进行了研究和探索,最后结合计算机网络的优势设计了一套解决方案,有效地解决了一些在传统的实验方式里所难以解决
对于计算机数据库SQL语句的优化问题,有的的优化专家认为,通过将性能相对低下的SQC语句优化使其转化为目的相同的性能优异的SQL语句,可以得到近40%的系统性能的提升,一直以来,这是
中石化齐鲁分公司胜利炼油厂于1966年建厂,现在年加工原油能力为1000万t,拥有近70套生产装置,在这些装置中关键的转动设备离心式压缩机有近40台。每一台机组都是该装置最重要
作为目前所发现的最小而且是最简单的马达,驱动蛋白为我们在研究马达的蛋白质结构与其力学化学功能之间的关系上提供了一个主要依据。驱动蛋白中的一个基本问题是:驱使它不断向