基于改进PCA-SOM神经网络的文本分类研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:nxjmbxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息过载的时代,通过Internet快速、准确地获取有效信息已成为目前研究的焦点问题之一。文本分类是实现信息检索的重要手段,被广泛应用于文本过滤、信息检索、自然语言处理、垃圾邮件分类与探测等领域。本文在深入研究目前文本分类算法技术的基础上,针对文本数据非线性的特点和传统的特征降维算法、分类算法的不足,提出基于主成分分析白化的降维算法和自组织映射神经网络文本分类算法。白化主成分分析(White-PCA)是一种对多元数据进行统计分析的技术,在处理高维非线性问题中有着极大优势,而且相对于特征选择能够提供更多的信息,自组织映射(SOM)神经网络算法能进行大规模分布和并行数据信息处理,此外,具有学习能力强、收敛速度快、能实现全局最优和自组织聚类的功能,但是SOM存在一些局限,将引入覆盖方法、良心算法和核方法对SOM进行优化改进。本文结合White-PCA特征降维和改进SOM神经网络分类算法各自具有的优势,构建文本分类检索模型。首先针对文本数据的特点,采用基于白化主成分分析(White-PCA)算法进行特征提取和降维,可以对特征空间实施降噪、降维和去相关性,完成分类前的准备工作;然后利用改进后的SOM神经网络进行文本分类,该算法有很强的学习、联想、容错能力和鲁棒性;最后,对基于Naive Bayes文本分类算法、基于KNN的文本分类算法、BP网络及RBF网络进行了实验对比。通过实验对比,本文算法较之基于Naive Bayes和基于KNN的文本分类算法,有更高的分类精度,对比BP网络和RBF网络有更快的分类速度。
其他文献
随着计算机技术的广泛普及和应用系统理论研究领域的扩大,广义系统理论得到了迅速发展。在各种物理、工业和工程系统中,不可避免的出现各种不确定性,同时,时滞现象也会经常出
近年来,科技和社会环境发生了迅速地变化,日益丰富的物质文化极大满足了人们的需求,随着人口老龄化的到来,人们给予了身体健康更多的关注。人体免疫系统为人类机体免于病毒、细菌
概率论是研究随机现象的规律性的一门科学。它在自然科学、社会科学等领域都有非常广泛的应用。自20世纪30年代以来,概率论发展迅速,并且新的分支不断涌现。概率论极限理论就是