基于Storm的数据流聚类研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:coolyangbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,各种应用的普及和深入,其所产生数据量急剧增长,同时很多数据是动态的、流式的,需要进行实时的处理和挖掘分析。对于数据流聚类问题来说,国内外学者已经进行了许多探索和研究,目前已经存在一些不同种类的数据流聚类算法,然而这些算法仍然存在许多问题,比如不能适应数据流速度变化、对大规模数据流聚类的效率不高和分布式并行条件下质量不好等等。  近年来,云计算平台在不断出现和完善,具有很好的分布式并行计算能力,基于云平台技术的数据挖掘和分析也获得了广泛的关注和认可,为提高数据流聚类的效率提供了新的途径。但是由于Storm的发展历史相对较短,在其基础上进行数据流聚类的研究还不多见。  本文在针对数据流聚类问题的要求和特点基础上,经过对多个云计算模型的比较分析,在Storm基础上提出基于Storm的数据流聚类模型,对经典的数据流聚类算法CluStream做了改进,提出微簇簇密度的概念和动态可调的滑动时间窗口,在聚类模型的基础上设计并且实现了S-CluStream。在CluStream在线和离线两阶段聚类的思想下,本文将其在线聚类过程分成局部微簇更新和全局微簇合并。因此,S-CluStream将数据流聚类分为四个过程,即聚类初始微簇的确定、局部聚类微簇的实时更新、局部聚类微簇的全局合并和全局微簇的聚类,达到了实时高效地对数据流进行聚类分析。  为了检验基于Storm的数据流聚类算法的有效性,本文设计和搭建了Storm实验集群,从演化性、聚类质量和聚类效率等多个方面加以考察。测试结果表明算法具有演化性,同时在聚类质量和聚类效率上均有提高。
其他文献
  心血管疾病已成为导致人类死亡的主要疾病之一,医学知识证明心室纤颤(VF)和室性心动过速(VT)是导致心脏猝死的主要原因。心血管疾病的发作时间无规律、发作地点不固定使得
一、汉字思维必须受到重视  早在1982年,汪曾祺就明确提出“汉字思维”一说。在《认识到的和没有认识的自己》一文中,他说:“中国的识字的人,与其说是用汉语思维,不如说用汉字思维。……这是西方文字所没有的。”1996年,石虎、郑敏、申小龙等画家、学者在关于海外华文诗学的学术讨论中,重点讨论了“字思维”,即汉字思维。汪曾祺所说汉字思维、石虎们所讨论的字思维,是从写作表达的角度,是用字思维;并非识字角度
期刊
语文这门学科,其根本的教学目的是为了让学生领悟并把握祖国母语的精髓,能够优雅地用声音与文字表达自己的情感与思想,后者则是语文教学的重中之重。  《语文课程标准》明确指出,写作能力是语文素养的综合体现,涵盖了所有的语文基础素养,是语文综合素养的集中体现与最高程度呈现。一定程度上我们可以明确地说,写作能力不仅是语文教学素养的综合体现,也是一个人的整体、全面文化素养的综合体现。因此,有教育专家直接把小学
期刊
一、激发学生学习兴趣  德国教育家第斯多惠曾说:“教育的艺术,不在于传授本领,而在于激励,唤醒,鼓舞学生的兴趣。”小学生的注意力集中时间较短,特别是低年级学生,学习意志力、主观意识薄弱,激发学生学习兴趣是达到教学目标的关键。利用信息技术能使教学过程变得生动活泼,更具有吸引力。例如,在教学“马” “鱼” “燕” “虎” “象” “雨” “电” “鹿” “鼻”等象形字时,学生对于字形的掌握和字义的理解
期刊