云计算下的关联分析和模糊聚类研究

来源 :南京信息工程大学 | 被引量 : 15次 | 上传用户:estone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代数据采集和存储技术的快速发展使得各领域的数据得以海量积累。数据挖掘作为近些年崛起的一门新技术,将传统的数据分析方法与复杂的数据处理算法相结合,有效地帮助了各领域从海量数据中快速、高效地挖掘可用知识,因而被广泛地应用在各领域中。Hadoop作为云计算技术的开源代表,实现了MapReduce编程模型,构建出一个可靠、稳定和可扩展的分布式并行计算平台,拥有对超大数据集的处理能力。因此,利用Hadoop框架技术,研究传统数据挖掘算法的并行改进,对海量数据挖掘技术的发展具有十分重要的意义。本文在研究数据挖掘理论和云计算技术的基础上,选取了关联分析和模糊聚类分析为研究对象,主要做了如下工作:(1)收集和阅读大量文献资料,了解课题背景和国内外研究现状,阐明云计算下数据挖掘研究的意义。(2)深入学习数据挖掘理论和Hadoop云计算技术。了解数据挖掘含义和基本挖掘过程,分析Hadoop的MapReduce编程模型和HDFS等核心运行机制,结合并行计算相关知识,总结Hadoop平台优势。(3)针对关联分析中,传统的Apriori及其改进的频繁项集生成算法不适应海量数据挖掘的缺陷,提出了基于Hadoop的频繁项集生成算法——MRARM算法,并且结合实际应用对MRARM算法的数据处理流程进行阐述。(4)针对模糊聚类分析中,FCM算法的计算复杂度较高的问题,提出了基于Hadoop的模糊聚类并行改进算法——MRFCM算法。结合江苏省地面气候数据集,以2012年月均降水量为要素,利用MRFCM算法进行了降水分区的应用展示。在Hadoop平台下,文章根据单机对照、集群规模和数据规模三个参数设计MRARM和MRFCM算法的实验方案,并进行了相应的实验和结果评估。实验结果显示,MRARM和MRFCM算法在实现传统数据挖掘算法目标的同时,具有较好的并行处理优势和扩展性,促进了云计算技术在海量数据挖掘领域的应用和发展。
其他文献
本文分析了云南楚雄彝族自治州南华县岔河彝族村民族文化生态的发展与保护面临的机遇和挑战 ,并提出了岔河村彝族文化生态的保护与发展思路 :岔河彝族村是一个完整的民族文化
中国民主党派同中国共产党在长期历史合作的实践中形成了爱国主义、争取民主、求真务实、团结合作和自我教育等优良传统。在新世纪新阶段,继承并发扬民主党派的这些优良传统,
2008年金融危机的爆发,使得以美元为主国际货币体系备受质疑和谴责,要求改革国际货币体系的呼声越来越高。我国是一个发展中大国,2010年我国国内生产总值超过日本,位居世界第
[目的]促进静脉给药查对制度的落实,保证临床护理用药安全。[方法]对全院100名临床护理人员进行问卷调查,归纳影响护理给药查对制度正确执行的因素。[结果]影响护理静脉给药
乔伊斯·卡罗尔·欧茨(Joyce Carol Oates,1938—)是美国当代著名的女作家,“心理现实主义”的代表人物,被誉为“女福克纳”。欧茨在长篇小说《他们》中,描写了从1937年至196
气相色谱(GC)法是现代化学实验中最为常用的一种分析方法,它具有测量范围广、分析速度快、选择性高、稳定性好等特点,在许多领域都有着广泛的应用。但是传统的分析方法属于离
我国城镇养老保险企业缴费积极性缺乏,表现为少缴、拖欠、拒缴、逃避养老保险缴费现象严重。城镇养老保险的缴费行为本质上体现了政府和企业在各自利益的驱动下所进行的博弈
孤独症谱系障碍是由复杂的遗传和环境因素导致的神经发育性障碍,复杂的病因产生出各种异常的表现形式。目前,据估计每150个人中就有一个孤独症谱系障碍患者,并且症状表现多样
组织结构理论是企业管理理论研究的一个重要课题,同时也是企业管理中必然面对的一个重要实践问题。在复杂的环境中,企业要想竞争中立于不败之地,求得生存与发展,就必须高度关