基于MapReduce的海量文本KNN分类方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:icekingfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的迅速发展,互联网产生的数据量越来越大,对于海量数据的处理成为了一个严峻的问题。这些数据一般以文本形式表现,而且数据量大,结构分散,如何挖掘出人们感兴趣的数据信息成为了关键。在众多的分类算法中,KNN由于其实现简单、分类结果准确且稳定性高等特性成为当下使用最为广泛的分类算法之一。然而当训练集样本数据过大或特征词过多时,KNN算法的计算效率急剧下降。首先,海量数据使得文本相似度的计算量大幅增长。其次,文本数据过多,也使得文本分类的效率大大降低。因此,本文主要研究了MapReduce框架下,并行KNN分类算法的设计与实现,提出了一种基于临界值中心点集合划分的分类算法,称为MKNN算法。本文在进行文本分类阶段,针对传统的KNN文本分类算法在对大规模文本处理时的不足,从而导致文本分类效率降低的问题,提出文本中心点集合划分的MKNN算法。MKNN算法在预处理阶段针对样本数据集中的文本进行中心点查找工作,得出中心点集合,在待分类数据集中的文本数据到达时,只需要和中心点集合中的数据进行相似度求解,然后进行分类从而减少分类时间开销;另外在对文本间相似度计算的余弦定理上进行了改进,利用MapReduce的分布式编程优势处理文本相似度计算,从而提高文本分类的效率。本文在文本分类技术以及相似度并行化计算方面进行研究,重点分析了预处理过程中的中心点划分算法以及余弦定理求解相似度的并行化过程。最后通过实验结果,进行算法运行结果分析对比。实验结果表明,MKNN算法在处理大规模数据时具有良好的并行计算扩展性,并在实验数据大小相近情况下,其分类效果明显提升。从而即保证了 KNN算法分类的准确性优势又提高的分类的高效性。
其他文献
我国是一个严重缺水的国家,在近几年里,灌溉用水量占据全国总供水量的65%左右。而目前由于农业用水效率不高,造成水资源的日益短缺,通过节水灌溉发展精准农业是现代农业的当务之急。土壤水分传感器能够高效地反映出土壤中的水分变化情况,有益于节水灌溉的实施。目前市面上的高精度土壤水分传感器普遍存在价格较高的问题,无法达到大范围布设以获取水分信息的目的,同时低成本的水分传感器大多使用低频电容测量的方法,受到土
随着饮食结构的精细化以及生活水平的不断提高,人们对大米的外观品质、适口性及营养品质的要求都不断提高。过度碾精已经造成了很多营养成分的浪费和损失,同时肥料运筹对稻米
经济全球化及知识化的纵深发展,使得以专利保护为核心的制度构建日益成为影响跨国企业市场进入决策的重要因素。利用跨国数据实证研究了东道国的专利保护强度对跨国企业市场
在全面提高开放型经济水平的背景下,需要深入分析对外贸易规模、外贸经济布局对环境影响的综合效应,全面探索对外贸易的环境效应规律。理论分析主要考察了对外贸易发展对环境
<正>周记,常常被语文老师当作提高学生写作水平的练笔形式。殊不知,它在班级管理尤其是转变落后班级方面也可大显身手。班主任如果能利用好周记,引导学生畅谈内心真实感受,便
期刊
通过110个主要国家的SITC三位码贸易数据计算了我国2002—2014年26个制造业细分行业的出口复杂度,以此衡量我国贸易结构转型情况,检验了制造业要素结构动态变化对贸易结构的
当今社会企业与企业的竞争是人才的竞争,企业的战略发展离不开人才。培训是企业人力资源管理的一个重要的方面,提高员工的工作绩效可以有效的通过培训来实现,从而企业效益可以有效提高。90后员工作为一个新生代群体,他们对培训的满意度能够在一定程度上反应当下企业战略策略和培训管理过程中存在的问题,现有的传统培训方式不能完全适用于新生代90后员工,因此对90后员工的有效培训显得十分重要。本研究将90后作为研究对
随着互联网的兴起,带动了以微博为主的社交网络平台的快速发展,微博评论文本呈指数型增长,从海量评论文本中挖掘的情感信息在商业策划与社会应用中的价值越来越大,与此同时,
甘油作为生物柴油的主要副产物,是一种理想的可再生资源,将甘油催化氢解产生1,2-丙二醇可以解决副产物甘油过剩的问题,同时具有一定的经济效益。本文采用铜基催化剂进行甘油
随着义务教育阶段新课程标准改革方案制订与实施,可以看出国家对初中阶段的教育呈现出日益重视的趋势。同时,从这些新课标实施的具体要求来看,国家对初中生语文阅读能力的培