论文部分内容阅读
分类是数据挖掘领域的研究热点,具有重要的意义,被广泛应用在现实生活中。虽然现阶段分类技术已经比较成熟了,但随着人类社会的发展,出现了数据的爆发,分类算法在海量数据前面临着新的挑战。当前对分类算法的研究侧重于提高其分类正确率,鲜有研究如何提高分类速率,而大数据下,很容易得到大规模的训练集以提高正确率,但这又对分类速率提出了要求。海量数据下,研究分类速度的提高具有重大意义。本文基于Hadoop平台,设计实现了一个基于朴素贝叶斯算法的文本分类器,采用大规模电商商品训练集的分类系统。首先介绍了课题的来源和研究背景以及意义;然后介绍了文本分类的相关技术,包括对文档信息进行预处理的技术方法——分词和停用词处理,分词包括对中文的主流分词技术和对英文进行分词;接着介绍了文档的向量空间模型表示,对向量空间模型进行降维的特征选择算法以及区别特征对分类贡献程度的特征权重;紧接着介绍了文本分类器的评价标准和朴素贝叶斯理论;最后对Hadoop平台的相关知识做了研究介绍,主要包括HDFS和Map/Reduce。然后研究了机械分词的特点和目前大多数分词器仅仅针对中文或者英文的缺陷,设计实现了一个适应中英文混合文档基于机械分词的并且拥有简单的基于统计的歧义处理的分词器,而且其基于lucene的分词接口Analyzer实现,能够与lucene联合使用;lucene根据分词器的分词结果建立索引以加快相关特征的词频统计。通过概率树的平滑和权重改进对分类准确率进行了优化。同时为了加快分类器迅速,结合基于WAND算法的快速搜索算法提出了快速朴素贝叶斯算法(Fast Na ve Bayes)。在Hadoop分布式环境下,采用大规模电商商品训练集,实验表明分类器具有良好的精度、召回率和F1值,而且具有较快的分类速度,具有一定的使用价值。最后,详细介绍了基于Hadoop平台文本的分类器的实现过程,包括Hadoop分布式环境的搭建以及快速贝叶斯算法的Map/Reduce并行环境下的实现。且架设了一个应用Hadoop文本分类得到的分类模型的的图书推荐系统,其采用B/S架构,应用Mysql数据库和Java web技术。