论文部分内容阅读
由于互联网与通信技术的迅猛发展,数据逐渐呈现出海量、异构、多样等特性。在互联网知识呈现的形式中,80%的信息是以文本形式存在,而人们在面对这些海量数据时,尝尝陷入“数据丰富,知识匮乏”的尴尬境地。文本挖掘的出现,使得信息杂乱的问题得到了有效改善。文本分类是文本挖掘与信息检索的重要基础与研究热点,近年来随着研究的广泛,文本分类在信息检索、舆情分析、信息过滤和新闻分类等多个领域取得成功了应用。然而,随着数据规模呈指数级的增长,传统的串行算法难以满足海量文本数据分析处理所要求的计算空间与能力,这也导致文本分类面临许多新的问题和挑战。近年逐步兴起的MapReduce计算模型能够以简单易于理解的框架和强大的并行计算能力解决了海量数据处理问题,并且在学术界与工业界也得到了广泛认可与应用。本文的研究内容主要从文本分类与大数据并行处理两个方面着手,介绍了文本分类的相关理论知识和MapReduce编程模型的相关技术,在并行运算模型的开源实现Hadoop平台上,提出并实现了一种简单、有效的文本分类方法——基于MapReduce的平均朴素贝叶斯文本分类算法。该方法在多项分布假设下,利用了文本特征的tfidf权值,较大限度地保存了文本的语义信息。同时实验了在不同大小,不同语言的语料库上的表现情况,并与普通贝叶斯分类在训练时间、分类性能等方面进行了对比。实验结果表明,由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法适用于处理大数据集,尤其是在传统串行算法无法处理的情况下;针对不同语言的数据集,在实验数据大小相近的情况下,由于文本预处理等方式的差异,英文语料库的分类效果优于中文语料库。最后在分类效果实验中,该方法在分类性能评价上高于一般朴素贝叶斯方法,且具有较好的加速比。