论文部分内容阅读
随着海量数据的急剧增长,数据的有效处理和计算成为目前亟待解决的问题。目前,由传统的机构结构化数据发展到大量半结构化、非结构化数据,这种趋势给传统的数据处理工具带来了很大的挑战。云计算技术是目前解决海量非传统数据的有效途径之一。云计算技术是将各种软硬件资源统一放到一个公共的资源池中;应用的个人和单位完全透明地根据需要获取云计算模型中的计算力、存储空间等服务。其中,Hadoop平台是当前广泛应用于云计算环境中的处理大规模海量数据的典型的开源分布式处理系统。Hadoop平台易于编程的MapReduce并行模式被大量应用到数据挖掘、信息处理和推荐系统中。 增量式计算是伴随海量数据处理产生的一种数据处理方式,该计算模式核心是尽可能用小的计算量来完成尽可能多得计算任务。其中表现在二次数据计算过程中,尽可能地利用之前初次数据计算的结果;二次计算仅针对原始数据变化的部分进行计算,最大限度的整合、重用初次计算结果,最终得到最终的二次计算结果,实现对海量数据的高效处理。 本文通过分析增量计算的特点和Hadoop平台框架的优劣,选取了数据挖掘领域中常见的KNN分类算法进行并行化,同时针对KNN算法结构进行了Hadoop平台增量计算改造,提出了一种基于Hadoop平台的KNN算法的增量计算。本文中着重针对KNN增量计算特征对Hadoop进行源码级别的改造,而应用层对次改造完全透明。通过选取数据集与原始 Hadoop平台进行对比,结果表明基于Hadoop平台的KNN分类增量计算能够取得和原始Hadoop平台相同的实验结果数据,这能够很好地证明KNN增量改进型的Hadoop平台设计的正确性,同时减少了在增量KNN分类算法下的计算代价,节省了计算资源,提高了计算效率。