论文部分内容阅读
90年代以来,随着信息存储技术和通讯技术的发展,大量的信息呈爆炸式增长,信息自动分类己经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域,如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(NaiveBayes)、决策树方法(DecisionTree)等等。
朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能。贝叶斯方法的一大优点是利用了先验信息,能够在不确定性的推理中提供一种模式和处理方法。朴素贝叶斯与其他分类法相比,具有更小的出错率、健壮性和效率。
但方法的数据稀疏的问题以及所采用的laplace平滑方法还存在一定的缺陷还不是最优。因此,我们提出用uni-gram的平滑方法来改进数据稀疏状况,通过对贝叶斯分类的平滑方法进行改进提高其分类效果。
本文利用了贝叶斯理论对文本进行了分类。主要完成了以下几个方面的任务:1.描述了文本分类系统的一般过程,包括文本信息的表示、提取,文本分类的方法,介绍了贝叶斯理论。
2.分析了朴素贝叶斯文本分类方法的特点及缺陷,并提出用一元统计语言模型的平滑技术对其数据稀疏问题引起的零概率进行改进的可行性。
3.用uni-gram模型的三种平滑方法即Jelinek-Mercer平滑方法、Dirichiet平滑方法、绝对折扣法对贝叶斯分类器进行改进,提出了具体的算法和实现框图,这是本文的核心内容。
4.通过实验分析确定平滑算法的参数取值,比较改进了的贝叶斯分类器与原来采用laplace平滑的分类器的性能,提高了分类准确率和召回率。
今后,应该用统计语言模型的二元、三元模型来更好的改善贝叶斯的分类效果。同时可以考虑将贝叶斯分类系统的特征提取方法中将tf.idf和MI两种标准结合以提高分类器性能。