论文部分内容阅读
随着互联网技术的发展,存储于Web里的信息急剧膨胀,这些信息包括文本信息、声音信息、图像信息等,其中文本信息存储和传输技术相对比较简单,易于上传和下载,因此大部分信息以文本形式存在,面对这些海量的文本信息,用户很容易迷失其中,在这种背景下,人们迫切需要一种技术快速地分析,过滤文本信息,文本分类技术有助于解决上述问题,它可以有效地组织和管理文本信息,帮助用户快速,准确地搜索到所需要的目标信息。本文分析了文本分类的相关理论和技术,以贝叶斯分类方法为基础,探讨了词间相关性对于文本分类的影响。传统的朴素贝叶斯分类方法以其快速,易于实现的特点被广泛应用于各种文本分类研究,它假定对于给定的类,所有属性之间是相互独立的,这样大大简化了计算,然而在现实世界的问题中,这个假定过于理想化,众多的实验也表明在某些情况下朴素贝叶斯分类器的性能并不理想。在上述背景下,本文首先研究了朴素贝叶斯模型,进而在考虑属性相关的条件下对朴素贝叶斯分类器作了一定的改进,提出了基于词间相关性估计的贝叶斯分类模型,接着研究了贝叶斯网络的理论和方法,利用贝叶斯网络可以描述数据项间依赖关系的特点将其应用于考虑词间相关性的文本分类,提出了基于“约束条件独立性假设”,考虑强相关项父亲的2-P贝叶斯分类模型。最后对三种分类模型进行了实验,实验结果表明考虑词间相关性后,文本分类的准确率得到了一定提高,词间相关性对文本分类具有积极的作用。