基于海量数据挖掘的分类算法研究

来源 :贵州大学 | 被引量 : 6次 | 上传用户:liujj08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类作为数据挖掘领域中最为活跃的分支之一,被广泛的应用于模式识别、图像识别、机器学习等领域。而且,分类在现实社会生活、生产实践中也有着广泛的应用场景,比如医疗图像识别、垃圾邮件过滤等。然而,随着大数据时代的到来,数据被迅速的生产和累计,TB级甚至PB级的数据在分类应用场景中逐渐成为了普遍的问题。海量的数据虽然使得数据系统的模式更加的完备,但是也带来了更多的冗余和噪声,分类任务的执行时间也急剧增加。在这样一种背景下,更高的准确率已经不再是人们唯一追求的目标,如何在不影响算法现有分类准确率的情况下,提高算法的执行效率,似乎已经成为了算法研究者们新的关注的焦点。Hadoop是通过借鉴Google的分布式文件系统GFS和并行计算框架MapReduce的思想,成功克隆出的一个开源的分布式系统。它使得基于集群的并行计算思想迅速的在数据计算领域得到发展和普及。同时也开启了将运行在单节点环境下的数据挖掘算法向集群环境上迁移并并行化执行的浪潮。首先,本篇论文充分利用KNN分类算法基于局部信息对测试样本进行分类的特性,结合聚类算法,通过裁剪与测试样本无关的训练样本,有效的降低了KNN算法的计算开销,达到提升KNN分类算法效率和性能的目的。然后借助与MapReduce并行计算模型,设计并实现了一个并行的基于聚类的KNN分类器,并成功完成了在Hadoop集群上的运行与一系列的性能测试。其次,本文通过对朴素贝叶斯分类算法流程进行任务分解,实现了一个基于MapReduce模型的并行化的朴素贝叶斯分类器。但是,在具体的实践过程中发现,数据的离散化成为了并行化朴素贝叶斯分类器的性能瓶颈。因此,为了打破这一瓶颈,同样借助于MapReduce模型,设计并实现了基于熵的数据离散化算法。使得并行化的朴素贝叶斯分类器在进行海量数据分类时,拥有更高的效率。实验表明,无论是基于聚类的并行化KNN分类算法还是并行化朴素贝叶斯分类算法(采用并行的数据离散化方法进行离散化处理),都能够带来较大的性能提升和良好的扩展性。在一定程度上能够满足人们对海量数据分类的性能要求。
其他文献
TTCN-3语言编译器实现的复杂性,使手工构造的测试用例集无法对编译器质量加以有力保证。引入测试用例自动生成,成了一种必然选择。通过总结手工测试经验,结合编译器构造、程
近年来,伴随着社会经济的发展,道路交通也迅速发展,从而造成交通环境相对复杂。为解决道路交通迅速发展所带来的各种问题,智能交通系统的研究被提到了重要位置,利用计算机视
伴随着云计算的迅速发展,云存储服务也应运而生。云存储大大提升了存储资源的利用率,降低存储成本。无论传统的单机存储还是当前的云存储,只要有数据的地方就有数据安全问题。“
随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础
随着计算机与互联网的日益普及与应用,在10年左右的时间里互联网上至少产生了50亿的网页,浩如烟海的互联网信息极大地促进了搜索引擎技术的蓬勃发展,诞生了我们所熟知的Google、
弹性分组环(Resilient Packet Ring)做为一种新兴的城域网传输技术,和MPLS并称为城域网传输技术的两个奇葩,实现了城域网、大型专网建设的一个技术上的革新,为用户提供高质量
计算机视觉和机器智能的一个主要目标就是对形状进行灵活有效的描述。一个表示形状结构的重要方法,就是对物体的骨架化。骨架化是包含物体拓扑结构特征的压缩表示,它在形状匹
Peer to Peer即对等计算或对等网络,通常简称P2P,可以简单地定义成通过直接交换来共享计算机资源和服务。通常这些资源和服务包括:信息的共享与交换、计算资源、存储资源等。
随着互联网上数据量爆炸式的增长,搜索引擎技术得到广泛的研究,并且出现了一批非常优秀的搜索引擎。但是,现有的搜索引擎只是将返回结果简单地进行线性排列,用户想要的信息可
学位