一种基于Hadoop的KNN增量式算法的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:hz198119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据的急剧增长,数据的有效处理和计算成为目前亟待解决的问题。目前,由传统的机构结构化数据发展到大量半结构化、非结构化数据,这种趋势给传统的数据处理工具带来了很大的挑战。云计算技术是目前解决海量非传统数据的有效途径之一。云计算技术是将各种软硬件资源统一放到一个公共的资源池中;应用的个人和单位完全透明地根据需要获取云计算模型中的计算力、存储空间等服务。其中,Hadoop平台是当前广泛应用于云计算环境中的处理大规模海量数据的典型的开源分布式处理系统。Hadoop平台易于编程的MapReduce并行模式被大量应用到数据挖掘、信息处理和推荐系统中。  增量式计算是伴随海量数据处理产生的一种数据处理方式,该计算模式核心是尽可能用小的计算量来完成尽可能多得计算任务。其中表现在二次数据计算过程中,尽可能地利用之前初次数据计算的结果;二次计算仅针对原始数据变化的部分进行计算,最大限度的整合、重用初次计算结果,最终得到最终的二次计算结果,实现对海量数据的高效处理。  本文通过分析增量计算的特点和Hadoop平台框架的优劣,选取了数据挖掘领域中常见的KNN分类算法进行并行化,同时针对KNN算法结构进行了Hadoop平台增量计算改造,提出了一种基于Hadoop平台的KNN算法的增量计算。本文中着重针对KNN增量计算特征对Hadoop进行源码级别的改造,而应用层对次改造完全透明。通过选取数据集与原始 Hadoop平台进行对比,结果表明基于Hadoop平台的KNN分类增量计算能够取得和原始Hadoop平台相同的实验结果数据,这能够很好地证明KNN增量改进型的Hadoop平台设计的正确性,同时减少了在增量KNN分类算法下的计算代价,节省了计算资源,提高了计算效率。
其他文献
社团是复杂网络广泛存在的拓扑特性之一,发现网络中的社团结构是复杂网络研究的基础性问题,也是热点问题。社团划分算法按划分结果可以分为重叠和非重叠社团划分算法两类。在社
公平交换协议用来保证参与交换的各方以一种公平的方式交换信息,要么任何一方都可以得到对方的信息,要么都得不到对方的信息。公平交换协议在电子商务、电子政务等领域发挥着
随着中国物流行业的飞速发展,市场竞争日益激烈,传统的人力劳动性生产模式已不能适应不断增长的大规模邮政生产需求。从粗放式生产的转变集约性生产已迫在眉睫。而以大型设备为
网格系统为用户提供了一种全面共享各种网格资源的基础设施。随着Internet与计算机技术的飞速发展,网格系统中资源的数目日益庞大,交互更加频繁,而网格资源本身又具有分布性
认证协议是安全协议中最基本、最重要的一种,其目标是实现通信实体的身份认证和在通信实体间分发会话密钥。对认证协议的攻击形式有很多,但已构成的攻击事例中,百分之九十以
近年来,随着计算机计算速度和能力的大幅提高,传统的加密技术已经不能满足当代网络通信安全性的需求。由于混沌具有一系列较好的特性,如对初始条件和控制参数的极端敏感性,伪随机
基于背包问题的公钥密码算法是密码学历史上最早被设计出来的几个公钥密码算法之一。由于背包密码的快速加解密优势和背包问题是NP完全问题,很长一段时间内背包算法受到普遍
数字水印技术是信息隐藏技术的重要研究方向,它在数字图像等多媒体版权保护以及内容认证方面具有重要价值。互联网的便捷性和数字媒体复制的低成本,在促进数字产品在现实中的
程序是用计算机程序设计语言编写的用于实现某种操作的指令集合,程序为了对抗逆向分析或者是代码窃取,通常会采取一些自我保护技术,程序行为或者代码隐藏技术属于其中的一种。程
任何一门学科的快速发展都离不开社会需求的支持和推动,随着人们对生活质量和健康水平的日益重视,医学已经成为本世纪发展得最快的学科之一。在医学迅猛发展的过程中积累了大