论文部分内容阅读
随着Internet的迅猛发展,电子文本信息迅速膨胀,文本分类系统作为处理和组织电子文本信息的一项重要技术,成为信息处理领域不可或缺的工具。在我国信息化建设蓬勃发展的今天,开发适合中文的文本分类系统显得尤为重要。目前常用的文本分类算法有以下几种:贝叶斯、KNN、支持向量机、决策树、粗糙集、神经网络等,其中贝叶斯算法以其良好的准确性和较高的效率逐渐成为当前文本分类技术的主流。
本文在介绍常用文本分类算法的基础上,着重研究贝叶斯算法及其相关模型,详细介绍贝叶斯方法的二项式独立模型、多项式模型及混和模型,并通过实验比较三种模型的分类性能。
然而贝叶斯分类算法具有一个严重的缺陷——数据稀疏问题,即如果一些特征属性在训练语料的某个类中没有出现,则在分类阶段如果某待分类文档含有这些特征属性,那么不论别的特征属性的条件概率有多高,都会导致该文档属于这个类的条件概率为零。虽然上述三种贝叶斯模型针对这一问题都作了简单处理,但依然存在很多问题。为了解决现有贝叶斯算法中处理数据稀疏问题的缺陷,本文在讨论统计语言模型中N-gram平滑技术的基础上,考虑贝叶斯算法的独立假设特性,提出采用Unigram平滑技术的三种不同方法来改进贝叶斯分类器,分别为One-count平滑方法、Jelinek-Mercer 平滑方法以及Katz平滑方法。
最后,本文设计并实现了基于贝叶斯方法的中文文本分类系统,将三种平滑方法分别应用于系统中的二项式、多项式和混合贝叶斯模型中,并通过实验与原始贝叶斯分类器进行比较。实验表明,经过平滑后的分类系统具有较好的准确率、召回率及F1值。