Hadoop环境下CLIQUE算法的改进与并行化研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:wlh0089
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析算法是数据挖掘领域中一个非常重要的分支,一直都受到广大国内外研究人员的喜爱。它基于用户给定的原始数据对象及其关系,将所有的数据对象聚类成若干个簇,使得位于同一簇内的数据对象之间的相似性大,不同簇的数据对象之间保持较低的相似度。而随着现代技术的迅猛发展,互联网生成的数据规模日益增长,传统的串行聚类算法无法满足超大规模数据的分析与处理,主要表现为数据对象无法装入内存、算法的执行效率低等方面。因此,如何在保持聚类效果的同时高效地对海量数据进行分析和处理成为了一个崭新的研究领域。Hadoop分布式计算平台的诞生及兴起为提高传统串行聚类算法的处理性能提供了一种可靠的途径。CLIQUE算法是一种高效便捷的聚类方法,在进行聚类分析时,合理地设置划分参数和密度阈值可以使得CLIQUE算法得到高质量的聚类结果。但是当初始化参数尤其是划分参数设置不合理时,不仅会影响算法的执行效率,更会对最终的聚类质量造成严重影响,也正因为这一点国内外研究学者对CLIQUE算法的看法褒贬不一。本文深入研究了传统CLIQUE聚类算法的网格划分策略以及剪枝策略,提出边界修正方法以及滑动网格方法并对划分后的网格进行调整,以提升网格划分的质量;同时结合MapReduce的编程规则以及改进算法的特点,将并行算法分为网格划分和遍历聚类两个阶段,分别设计Map函数和Reduce函数,给出了 Hadoop环境下改进CLIQUE算法的分布式并行化方案。最后分别从算法的聚类精度及集群环境下的时间效率、加速比、数据伸缩率和可扩展率五个方向对改进的CLIQUE算法进行了实验测试。通过对比实验和结果分析表明,使用本文提出的方法改进CLIQUE算法可以有效提升网格划分质量,得到更精确的聚类结果,而基于Hadoop分布式计算平台对改进算法实现并行化后也表现出良好的数据伸缩率和可扩展性,显著提高了算法快速处理海量数据的能力。
其他文献
车轴是列车的关键支承部件,也是走行部的最基本的旋转部件之一。在轨道车辆运行过程中,轮对车轴承受荷载的同时面临着非常复杂的运行环境,容易引发故障。对车轴进行故障诊断并预测出车轴的剩余寿命不仅方便制定合理的维修策略,又能有效避免事故的发生,从而提高安全性并降低故障引起的损失。为实现对车轴故障的分类识别和寿命预测,本文提出了一种基于二维卷积神经网络的车轴故障诊断方法。卷积神经网络(CNN)是深度学习的一
自18世纪女性主义发源起,便掀起一股关于女性觉醒的浪潮,并对政治、文化、哲学、艺术等领域产生了巨大的影响。在解构主义的影响下,经过了漫长的发展,女性主义的核心理念也从权利的争取演变为“不能被界定和规划”与“反抗父权中心论”。女性主义的蓬勃发展无疑催生了艺术的新的发展方向。自二十世纪以来,越来越多的女性艺术家们带着自己鲜明的立场和新的艺术思考进入了艺术领域,这无疑是为长期由男性视角主导而僵死的艺术领
众所周知,语音学习对初中学生尤为重要并且语音学习对英语学习也具有重要意义。然而,受到中考的影响,中学教师往往对语音教学有所忽视。在教学过程中,笔者发现一些学生对单词的发音存在一些困难。因此,要想提高初中学生的英语口语水平,研究他们的发音是必不可少的一步。首先,笔者选取七年级学生作为研究对象,研究受试者目前英语发音的习得现状;其次,笔者采用问卷调查、教师访谈、语音测试为主要研究工具,总结受试者在学习
压缩感知作为一种全新的信号理论,突破了Nyquist采样定理对采样率的限制,基于信号具有稀疏性或可压缩性的特性,可实现信号低速率压缩采样及其准确重构。压缩感知通常包括信号
本论文依托于国家“深部探测与实验研究专项(SinoProbe)”计划下第一个项目“大陆电磁参数标准网实验研究(SinoProbe-01)”中的子课题“青藏高原及华北阵列式区域大地电磁场
认罪认罚从宽制度在2018年新修改的刑事诉讼法做出明确规定以来,在立法层面对认罪认罚从宽制度作出明确规定,完善了刑事案件认罪认罚从宽制度适用方面相关程序规定。检察机关兼具司法机关和国家法律监督机关职能,基层检察机关承担着大量轻微刑事案件,承办刑事案件占所有刑事案件比百分之七十以上,因此,基层检察机关在办理刑事案件适用认罪认罚从宽制度过程中证据审查、认罪认罚沟通与协商、权益保障以及程序选择等方面承担
视频目标跟踪是计算机视觉、人工智能等领域的研究热点,在视频检索、视频分析、模式识别等方面有重要的研究价值。根据操作域的不同,目标跟踪算法分为像素域算法和压缩域算法
骏枣在新疆种植面积占到60%以上,是新疆种植规模最大的林果树种。目前,枣资源的开发利用主要集中在果实上,果实采摘后的叶片则不予重视,造成资源的极大浪费。本课题组前期研
随着移动通信技术的升级与智能终端的普及,移动支付在我国进入了飞速发展时期。在参与发展移动支付业务的各主体中,第三方移动支付平台因自身业务特性等因素在市场中表现良好,但依然存在影响其发展的行业劣势与环境限制。在未来日趋激烈的市场竞争中,如何发掘行业潜力,巩固高粘度用户,制定适宜的发展策略成为其未来发展业务的重中之重。本文采用了文献研究法、模型法、归纳演绎法等研究方法,共由六个部分构成。第一部分介绍了
随着互联网技术的普及和大数据学科的发展,数据越来越多的以文本形式出现,如何让计算机理解文本内容,自动的对其进行处理,达到减少人工成本,提升效率的目的已成为当今自然语