论文部分内容阅读
在信息过载的时代,通过Internet快速、准确地获取有效信息已成为目前研究的焦点问题之一。文本分类是实现信息检索的重要手段,被广泛应用于文本过滤、信息检索、自然语言处理、垃圾邮件分类与探测等领域。本文在深入研究目前文本分类算法技术的基础上,针对文本数据非线性的特点和传统的特征降维算法、分类算法的不足,提出基于主成分分析白化的降维算法和自组织映射神经网络文本分类算法。白化主成分分析(White-PCA)是一种对多元数据进行统计分析的技术,在处理高维非线性问题中有着极大优势,而且相对于特征选择能够提供更多的信息,自组织映射(SOM)神经网络算法能进行大规模分布和并行数据信息处理,此外,具有学习能力强、收敛速度快、能实现全局最优和自组织聚类的功能,但是SOM存在一些局限,将引入覆盖方法、良心算法和核方法对SOM进行优化改进。本文结合White-PCA特征降维和改进SOM神经网络分类算法各自具有的优势,构建文本分类检索模型。首先针对文本数据的特点,采用基于白化主成分分析(White-PCA)算法进行特征提取和降维,可以对特征空间实施降噪、降维和去相关性,完成分类前的准备工作;然后利用改进后的SOM神经网络进行文本分类,该算法有很强的学习、联想、容错能力和鲁棒性;最后,对基于Naive Bayes文本分类算法、基于KNN的文本分类算法、BP网络及RBF网络进行了实验对比。通过实验对比,本文算法较之基于Naive Bayes和基于KNN的文本分类算法,有更高的分类精度,对比BP网络和RBF网络有更快的分类速度。