面向海量数据的快速挖掘算法研究

被引量 : 0次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计算,如何从海量的数据中提取有用的信息已经成为必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法;介绍了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台Hadoop的分布式文件系统HDFS和并行编程模型MapReduce的实现原理。在此基础上,重点研究了关联规则挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法C-FUP (Cloud Computing Based FUP);以提高并行化效率为目标,对Hadoop中HDFS的数据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方法DAMBNP (Dataset Allocation Method Based on Node Performance);并对Hadoop的性能进行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。为了验证所提出的算法和方法的有效性,本文设计了基于Hadoop的仿真实验,实验结果表明,C-FUP算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩性和可扩展性;数据集分配方法DAMBNP能有效地提高C-FUP算法在云计算平台上的执行效率。论文对海量数据的快速挖掘做了有益的研究工作。
其他文献
<正> 从鱼肚白的遥远天际,隐约传来阵阵箫钟鼓瑟之声;在蓝里泛白的一片透明之中,显出了一抹红影。突然轰然一声,一个醉醺醺的高大武士驱着龙驾辕、马拉套的金色战车,挟着滚滚
高等院校是一个由政府、高校管理者、教职工、学生及其家长、债权人、捐赠者等利益相关者共同作用的有机整体,而且各个利益相关者的利益需求以及程度也各不相同。一直以来,在做
战略咨询公司贝恩的研究显示,中国2010年的奢侈品消费高达65亿美元,这包含境内及境外的消费,连续三年全球增长率第一,销售量第一,2011年的增长率预计在23%左右,并有望在未来
尽管素质教育的理念就以其强大的鼓动性和生命力迅速为人们所接纳 ,但在具体的教育实践中素质教育所取得的成绩却并不尽如人意。重要的在于澄清理论问题 :首先 ,明确当今素质
<正>急性心梗是院前急救的重要内容,是高风险急症,有较高的猝死率。目前,介入技术的广泛开展所带来的较好预后,使心梗的院前急救更具挑战性。根据急性ST段抬高型心肌梗死诊断
改革开放30多年来,民营企业在我国经济发展中创造了无数的业绩和辉煌,然而面对人才市场的激烈竞争与大量优秀员工的不断流失的现状,如何留住员工并加强他们的组织归属感,以减
随着综采机械化的广泛应用,原煤中0~6mm细粒级煤炭含量逐渐上升。大多数缺水干旱地区对细粒煤不加处理直接进入市场造成严重的资源浪费,因而亟需研究简单、可靠、高效的细粒煤
信息披露水平的提高能通过减少管理者与投资者以及投资者之间的信息不对称来降低投资者预期风险、提高股票流动性,从而提高企业的财务绩效。那么,在我国现阶段的证券市场中,网络
文中结合国家测绘地理信息局科技项目"面向信息化测绘的省级基础地理信息服务体系研究与建设示范"研究成果,甘肃省信息化测绘服务体系建设经验,探讨了面向信息化测绘的省级基