基于Storm的数据流聚类研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户：coolyangbo

【摘要】

：

随着科学技术的不断发展，各种应用的普及和深入，其所产生数据量急剧增长，同时很多数据是动态的、流式的，需要进行实时的处理和挖掘分析。对于数据流聚类问题来说，国内外学者已经进

【作者】

：

李伟

【机构】

：

大连海事大学

【出处】

：

大连海事大学

【发表日期】

：

2017年01期

【关键词】

：

数据挖掘数据流聚类并行计算簇密度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的不断发展，各种应用的普及和深入，其所产生数据量急剧增长，同时很多数据是动态的、流式的，需要进行实时的处理和挖掘分析。对于数据流聚类问题来说，国内外学者已经进行了许多探索和研究，目前已经存在一些不同种类的数据流聚类算法，然而这些算法仍然存在许多问题，比如不能适应数据流速度变化、对大规模数据流聚类的效率不高和分布式并行条件下质量不好等等。　　近年来，云计算平台在不断出现和完善，具有很好的分布式并行计算能力，基于云平台技术的数据挖掘和分析也获得了广泛的关注和认可，为提高数据流聚类的效率提供了新的途径。但是由于Storm的发展历史相对较短，在其基础上进行数据流聚类的研究还不多见。　　本文在针对数据流聚类问题的要求和特点基础上，经过对多个云计算模型的比较分析，在Storm基础上提出基于Storm的数据流聚类模型，对经典的数据流聚类算法CluStream做了改进，提出微簇簇密度的概念和动态可调的滑动时间窗口，在聚类模型的基础上设计并且实现了S-CluStream。在CluStream在线和离线两阶段聚类的思想下，本文将其在线聚类过程分成局部微簇更新和全局微簇合并。因此，S-CluStream将数据流聚类分为四个过程，即聚类初始微簇的确定、局部聚类微簇的实时更新、局部聚类微簇的全局合并和全局微簇的聚类，达到了实时高效地对数据流进行聚类分析。　　为了检验基于Storm的数据流聚类算法的有效性，本文设计和搭建了Storm实验集群，从演化性、聚类质量和聚类效率等多个方面加以考察。测试结果表明算法具有演化性，同时在聚类质量和聚类效率上均有提高。

其他文献

面向智能手机的心室纤颤和室性心动过速检测算法研究

　　心血管疾病已成为导致人类死亡的主要疾病之一，医学知识证明心室纤颤(VF)和室性心动过速(VT)是导致心脏猝死的主要原因。心血管疾病的发作时间无规律、发作地点不固定使得

学位

ECG分析算法VT检测VF检测Android系统心电监护系统

汉字思维与识字教学

一、汉字思维必须受到重视　　早在1982年，汪曾祺就明确提出“汉字思维”一说。在《认识到的和没有认识的自己》一文中，他说：“中国的识字的人，与其说是用汉语思维，不如说用汉字思维。……这是西方文字所没有的。”1996年，石虎、郑敏、申小龙等画家、学者在关于海外华文诗学的学术讨论中，重点讨论了“字思维”，即汉字思维。汪曾祺所说汉字思维、石虎们所讨论的字思维，是从写作表达的角度，是用字思维;并非识字角度

期刊

高雅的文字表达习惯要从小“培养”

语文这门学科，其根本的教学目的是为了让学生领悟并把握祖国母语的精髓，能够优雅地用声音与文字表达自己的情感与思想，后者则是语文教学的重中之重。　　《语文课程标准》明确指出，写作能力是语文素养的综合体现，涵盖了所有的语文基础素养，是语文综合素养的集中体现与最高程度呈现。一定程度上我们可以明确地说，写作能力不仅是语文教学素养的综合体现，也是一个人的整体、全面文化素养的综合体现。因此，有教育专家直接把小学

期刊

信息技术与识字教学的有效整合

一、激发学生学习兴趣　　德国教育家第斯多惠曾说：“教育的艺术，不在于传授本领，而在于激励，唤醒，鼓舞学生的兴趣。”小学生的注意力集中时间较短，特别是低年级学生，学习意志力、主观意识薄弱，激发学生学习兴趣是达到教学目标的关键。利用信息技术能使教学过程变得生动活泼，更具有吸引力。例如，在教学“马” “鱼” “燕” “虎” “象” “雨” “电” “鹿” “鼻”等象形字时，学生对于字形的掌握和字义的理解

期刊

基于Storm的数据流聚类研究

与本文相关的学术论文