论文部分内容阅读
文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对于信息处理的意义变得更加重要。随着海量信息的出现,分类时不仅要考虑准确性,还要考虑分类的效率,优化分类性能,提高分类速度,其中有两大关键问题需要研究,一是文本的预处理,二是文本的分类算法。本文以基于词性的特征提取和隐藏简单贝叶斯方法为重点,对文本分类模型设计的相关工作进行了探讨,具有很大的理论研究和实际应用价值。
首先较为详细的介绍了文本分类的应用领域、分类的具体流程以及分类过程中所用到的关键技术,主要包括文本预处理、特征降维和常用的分类算法,重点介绍了网页文件的抓取以及网页内容信息的提取。
接着在此基础上,提出了一种基于词性的特征提取方法,具体做法是对文本内容分词时标注词性,分别统计其中出现的各种词性的词组,根据其在语料中出现的概率为每种词设定一个因子,文章中对Chi—square方法进行改进得到一种新的特征提取法NC,通过验证得出经过NC提取特征后并进行分类的效果优于传统的Chi-square方法。
在分类器的构造中,本文引入了隐藏简单贝叶斯方法HNB,主要思想是为每一个特征词创建对应的隐藏父结点,这个父结点包含来自所有属性的信息,在使用贝叶斯理论分类时,加入隐藏父结点的信息,通过与NB及其它传统的分类算法比较得出,HNB分类法在准确率、召回率、F测量的总体性能上优于其它方法。
最后,对全文进行总结,并提出可能继续研究的方向。