云环境下面向大数据的模糊C均值算法研究与实现

被引量 : 5次 | 上传用户:Keldorn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,微博、微信、社交网络等交互式应用的涌现、基于云应用的兴起、多种形式数码设备的使用,数据正呈爆炸性增长。面对如此庞大的数据,传统的数据分析工具仅仅从简单的统计、查询和管理数据等方面进行处理,不能深层次地挖掘潜在的有用的信息。因此,如何利用大数据挖掘出有价值的信息就显得尤为重要。聚类分析是大数据分析技术之一,传统的单机聚类算法在运行效率和计算的复杂度都无法满足大数据信息处理的要求,云计算技术的发展为大数据的聚类分析提供了新的研究方向。本文结合MapReduce并行计算模型,通过对传统的FCM聚类算法进行研究,能够快速、高效的实现大数据的聚类分析。本文的工作如下:(1)大数据集成方法研究:大数据的一个重要特点是多样性,这意味着数据类型的多样性、数据来源的广泛性。要进行大数据的分析,首先需要将不同数据源中的数据进行集成,本文针对大数据多样性的特点进行了研究。通过剖析传统基于Web Service和XML技术的数据集成系统,结合云平台的优势,研究云环境下解析XML数据的方法,提出了基于Hadoop的数据集成方案,将不同数据源中的数据集成到HBase数据库中,以便对这些数据进行高效、快速的分析。(2)模糊C均值(FCM)算法研究:聚类分析是大数据分析技术之一,本文对聚类分析中的模糊C均值算法进行了研究,设计了其MapReduce化方案。(3)基于Canopy的FCM算法(Canopy-FCM)研究:考虑到大数据集数据量大的特点,本文对Canopy算法进行了研究,Canopy是一种粗糙的聚类算法,其能够通过很少的迭代次数获取比较粗糙的聚类中心,该算法具有快速的特点,因此将Canopy算法获取的聚类中心结果作为FCM聚类算法的输入能够加快FCM聚类算法收敛速度,本文对基于Canopy的FCM算法进行了研究,设计了其MapReduce化方案。(4)基于Hash取样的最大最小距离的FCM算法(HMMFCM)研究:Canopy-FCM算法是一种快速但不精确的聚类算法,传统聚类算法中经常使用最大最小距离算法获取初始聚类中心,以得到较好的聚类效果,由于最大最小距离算法不能被并行化,因此本文结合Hash取样方法对最大最小距离算法进行了研究,设计了Hash取样方法的MapReduce方案,使用Hash取样数据进行最大最小距离算法计算出初始聚类中心,最后将该初始聚类中心作为FCM算法的输入,以使FCM算法获取较好的聚类效果。
其他文献
国际贸易理论的最新发展旨在对企业的贸易、投资模式,以及跨国界生产重组进行更深入细致的分析。本文主要观点是当国内市场存在区域市场分割和垄断时,国内市场的贸易成本超过
介绍了利用Excel VBA设计和开发低值易耗品经费管理信息系统。该系统实现了低值易耗品计划审批信息和实际付款信息的输入、查询、修改,以及低值易耗品经费的信息统计、查询、
目的探讨卵巢黄体血肿与巧克力囊肿经阴道彩色多普勒超声检查的声像图特征及鉴别诊断价值。方法对2005年6月至2013年8月收治的169例卵巢黄体血肿(其中15例经手术证实)患者和298
勒·柯布西耶是一名伟大的建筑家,他引领了现代建筑的发展,他的建筑理念和思想体系影响到很多人。本文通过对柯布西耶的建筑研究,分析它的建筑理念和思维方式,从而对当下中国建筑
“路怒症”(也称愤怒驾驶)是进入汽车时代以后产生的一个世界性的通病,据美国最新公布的研究数据表明,在美国患“路怒症”的司机比例达到5%-7%,总人数超过1600万人。而根据中科院
设计艺术心理学是一门新学科。本文首先对设计艺术心理学进行了定义,分析了其主要研究对象和研究内容,提出设计艺术心理学研究包括两个重要的方面———使用和情感,并进行了
随着船舶交通流量的快速增长和交通流特征的日趋复杂,船舶交通流研究已进入大数据时代,如何有效地收集交通流数据、挖掘数据,从海量数据中提取出需要的船舶交通流特征,并将信息及
2018年中央1号文件对十九大提出的乡村振兴战略进行了具体部署,文件从12个方面分别对乡村振兴战略的意义、总体要求、具体内容、保障措施等进行了详细阐述,是实施乡村振兴战
13.56MHz频段的RFID技术主要应用于非接触式无线IC卡读卡领域,该频段技术在现阶段的应用主要是近距离应用,如身份证识别,电子车票等。在门禁管理,大型会议管理等领域当中,为了增加