基于MapReduce的图聚类算法的研究与实现

被引量 : 0次 | 上传用户:cutexsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了有效地从海量数据中获得我们所需要的信息,高效、高质量的聚类分析显得尤为重要,但也面临巨大的挑战。面对离散、多样、多维的海量数据,一些传统的基于距离的聚类算法聚类质量并不理想,而适合离散属性且聚类质量相对较高的基于图形的聚类算法计算复杂度普遍较高,计算难度大。基于Hadoop分布式计算平台具有强大的数据分析与处理能力,本文从提高海量数据聚类效率与质量出发,提出了一种使用Hadoop平台的可扩展分布式图聚类方法,即在MapReduce模型下实现图聚类方法,并使用这种方法设计并实现了基于MapReduce的最小生成树(MST)的聚类算法。本文的主要工作有:对MapReduce模型进行了详细解读,了解其相关的一些算法,分析了其研究现状,并对聚类分析及其研究进行了一定分析,在此基础上提出了基于MapReduce的最小生成树的聚类算法。该算法既解决了基于距离的聚类算法中存在的问题,又很好地解决了图聚类算法的计算复杂问题,很大程度上提高了海量数据聚类的效率与质量,对海量数据的分析与处理起到了重要作用。本文详细分析了MST聚类算法的并行化实现。重点设计了该聚类算法在MapReduce模型下的实现过程,分别在MapReduce模型下对特征向量的提取、图的生成、MST的生成等步骤一一进行了实现。并分别对算法中涉及到的特征权重、相似度度量与MST聚类的实现进行一定的优化设计。最后通过相关实验对其性能进行了比较分析,并对该方法提出了一些展望。
其他文献
重症MRSA败血症1例的护理安徽省立医院汤菊英耐甲氧西林金黄色葡萄球菌败血症(Methicillin─ResistantStaphylococeusAurcasMRSA)是临床上罕见一种疾病,常以脑、心、肺等重要脏器发生脓肿及全身广泛性化脓性病灶为特...
从汉中地区现有的生态状况和当前发展面临的机遇等方面,分析水源涵养林在生态建设中所承担的重要作用,指出目前水源涵养林管理管护中存在的问题,并从补偿标准、制度建设等方
<正>1968年,陕汽厂在岐山五丈原下的山沟里建三线厂时,原设计生产纲领是年产1000辆军车;改革开放之后,陕汽开始第二次创业,军车、民品并进开发生产,主体厂从山沟迁移到西安市
会议
为了解湖北省荆门市老年人心理健康现状,本研究通过症状自评量表(SCL-90)对荆门市221名老年人的心理健康进行定量研究,结果显示老年人的居住地、学历、年龄段、兴趣的广泛度是
<正>面对日益严峻的环境和资源压力,国家对于汽车节能减排的要求不断提升。排放升级已倒逼不少车企加速解决技术升级的难题,涡轮增压技术因在降低油耗与节能减排方面有巨大优
在高原地区,空气密度低和环境温度较低,导致汽车发动机的运行效率很低,为了解决这一问题,当前已经开始应用涡轮增压技术提高发动机性能。基于对涡轮增压技术原理的研究,本文
随着我国经济社会整体的快速发展,物流企业通过组建战略联盟提升运营效率,拓展生存和利润空间有其可行性和必要性。目前,我国的物流企业战略联盟水平还较低,联盟发展具有一定
班级是学校教育工作的基本单位,而班主任是全班学生的组织者、教育者和指导者。只有注重方式方法,才能培养出良好的班集体。
[背景]糖尿病是目前危害人类健康的重要疾病,据国际糖尿病联盟(International Dabetes Federation, IDF)最新的调查[1],2011年全球糖尿病患病数量为3.66亿人,而目前糖尿病患
研发作为传统的创新形式仍是企业生存和发展的基础,对企业获得或维持竞争优势及其重要;企业是研发和创新的主体,为研发活动提供了条件和适宜的土壤。研发存在信息不对称和成果