基于Hadoop的粗糙集快速属性约简

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:huaweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论作为一种处理不确定、不精确或噪声数据的重要工具已经在多个领域,如数据挖掘、模式识别、人工智能、认知科学等得到广泛应用。近年来,基于粗糙集的属性约简成为一个非常热门的研究方向,这是因为属性约简在机器学习、模式识别和数据挖掘中起着举足轻重的作用。然而,随着数据的爆炸式增长,数据的种类越来越丰富,不仅在数据规模上不断膨胀,而且数据的维度也很高。基于单一节点的数据挖掘平台已不能完成海量数据的存储和分析任务。云计算技术的提出为解决大数据处理问题提供了解决方案,Hadoop是应用最广的云计算平台,HDFS和MapReduce是Hadoop的两个核心技术。论文详细分析了Hadoop平台以及MapReduce的编程框架。基于MapReduce对粗糙集属性约简算法进行了并行化分析。论文主要做了以下工作:基于Hadoop分布式平台,提出了一个数据挖掘框架,该系统框架提供一个浏览器形式的用户交互界面,用户可以通过自己的需求提交数据挖掘任务,服务器接收到任务后就会生成对应的Hive命令。 Hive server服务将Hive语句交给Hive执行, Hive语句被转换为一系列MapReduce作业。经过主节点的调度和分配,将任务分派给集群中的节点执行。最后将计算结果返回到调度节点进行汇总,再将最终结果返回给用户。通过实验的对比分析,表明此框架在处理大数据方面有很高的执行效率。基于MapReduce编程框架,对并行的数据挖掘算法并行化进行了分析,并对贝叶斯分类器进行了并行化的分析和实现,在此基础上分析了粗糙集属性约简算法的并行化方案。并行后的属性约简大大降低了时间复杂度,随着样本容量的增加,总的运行时间将呈线性增长。为了提高算法的运行效率,对算法进行了优化处理,使算法执行中间过程大大减少中间结果的输出。最后通过数据分析了基于MapReduce的并行算法的正确性、高效性和可扩展性。
其他文献
为了模拟一些在普通情况下无法获得或很难获得的实验数据,比如大型公共场所的踩踏拥挤事件等,需要能够精确地对真实场景中的群体运动进行建模。这些事故的发生本身具有不可预
随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引
随着时代的发展,网络技术和多媒体技术也迅速的发展起来。通过简单的网上操作,人们可以轻易地获取、发布和传输多媒体数字信息。然而,由于数字作品具有容易篡改、仿造和操作难以
人体动作识别是计算机视觉领域研究的热点问题,在智能机器人、视频监控等智能化系统中有着广泛的应用。由于人体运动本身以及运动场景的复杂性,人体动作识别仍然面临着诸多困
microRNA (miRNA)是一类长度为22nt左右的内源性非编码RNA,通过碱基序列互补配对的方式对靶标mRNA的表达进行调控,从而控制基因的表达。基因的异常性表达成为多种疾病发生的重
随着医学影像技术的迅速发展,医学影像逐渐成为临床医疗的一种主要辅助手段,很大程度上提高了医生的确诊率。当前针对医学图像的分割主要将重点置于核磁共振图像(MRI)。脑部
信息产业的高度融合与快速发展,特别是嵌入式技术及网络通信技术的蓬勃发展,推动了远程监控技术的革新。这些发展与革新为现代社会的生产生活能够实施数字化的网络监控提供了有
最优化是目前科学计算中较为重要的研究分支,随着科技的发展,工程技术领域诸如通讯系统、自动控制、电力系统、机械工程、土木工程、生物工程、化学工程等产生了诸多复杂的最优
随着移动互联网的发展,虽然传统的TCP/IP网络已经能够在大范围内满足信息传输的需求,但是仍然有一部分地区的网络基础设施不是很完善。在这样的情况下使用传统的TCP/IP网络则不
随着科学技术的进步,互联网已经成为人们获取信息的主要手段。一方面,对于某一话题事件,相关的信息出现在互联网的各个分散的角落,通过人工的手段无法获知话题事件完整信息;另一方