论文部分内容阅读
随着信息技术和互联网技术的迅速发展,互联网上的数据量呈指数级增长。如何处理如此庞大而急剧增长的海量数据成为信息科学与技术领域所面临的一大挑战。文本分类作为组织和处理海量文本数据的关键技术,可以在较大程度上解决信息的纷繁芜杂问题,帮助用户快速地检索、查询、过滤和利用信息。本文学习并研究了文本分类及其相关技术,详细介绍了文本分类处理流程中的各个环节,包括:文本预处理、特征选择、特征权重计算、文本分类算法、性能评价。文本分类算法及特征权重计算是文本分类过程中比较重要的两个问题。特征权重算法的好坏对分类结果的精确度有很大的影响,而分类算法的优劣则直接影响分类效率和分类结果的准确率。本文主要围绕这两个问题进行研究。本文研究内容及创新工作主要体现在以下三个方面:1、TFIDF(Term Frequency and Inverse Documentation Frequency)加权算法的研究与改进。特征词权重算法对文本分类的精确度有着非常重要的影响,TFIDF加权方法是VSM(Vector Space Model)模型下应用最广泛的一种权重算法。传统特征权重算法TFIDF,忽略了特征词与其他词语之间的语义联系及其在文本集中各个类别间、类内部的分布情况。针对该问题,本文在信息熵与信息增益的基础上,加入词语的语义关联,提出了一种结合语义、信息熵、信息增益的TFIDF改进算法(S-TFIDFIGE)。2、KNN(K-NearestNeighbor)分类算法的研究与改进。KNN算法是当前一种主流文本分类算法,因其实现简单、准确率较高而被广泛应用。但是,KNN算法具有计算复杂度高,分类效率较低的缺陷,限制了其在海量文本分类上的应用。MapReduce是一个通用性和可扩展性都较强的分布式并行计算模型,能有效地处理海量数据。本文在深入分析了 KNN分类算法自身特点及Hadoop MapReduce编程模型优势的基础上,提出一种基于MapReduce并行的PKNN算法。3、设计并进行了相关实验,验证了本文权重改进算法S-TFIDFIGE和分类改进算法PKNN的可行性和有效性,且对改进后的S-TFIDFIGE和PKNN算法进行了结合试验。文章提出的S-TFIDFIGE和PKNN算法,不仅能提高文本分类的准确率,还可以大幅度减少文本分类的时间,提高文本分类的效率,能适用于处理大规模文本数据分类的实际应用。