论文部分内容阅读
21世纪的时代是信息的时代,随着计算机技术、数据存贮技术日新月异的发展和改进,应用领域也得到了快速扩展,世界也随着信息的大量涌入而发生着天翻地覆的变化,文本数据资源正以指数级的速度增长着.对于许多用户来说面对如此大量的文本信息,但知识却相对贫乏的现象,人们从大量的信息中获取有意义的、相关性强、具有针对性的知识变得困难,所以将文本信息按照某些主题分类是一个迫切需要解决的问题,也是文本数据存储发展的必经之路。从文本挖掘由美国学者H.P.Luhn教授在1957年第一次被提出来以来,现今文本挖掘已经成为数据挖掘领域非常重要的一个分支,它已经广泛的应用在搜索引擎等领域。文本挖掘中特征选择这一过程,可以理解为是一个通过降低了特征空间的维数,从而来实现提高分类算法精度的重要的过程.因此寻找优秀的特征选择方法来对特征空间进行降维,现如今已是一个非常有实际价值的研究课题。 本文首先对文本挖掘的相关技术,文本挖掘的定义和过程,文本挖掘预处理,常用的文本分类器进行了介绍分析,也介绍了分类结果的评判标准和常用的语料数据集,在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.并且介绍了深度学习的产生发展经历及其常用的深度学习算法。其次,提出了基于多个自动编码器(Autoencoder)的文本分类方案,并与单个AE进行分类的方案进行了理论分析,进行了相应范围内的实验,给出了对比分析.最后,提出了基于RBM的文本分类方法,进行了相应范围内的实验,给出了基于RBM算法的文本分类方法精确度与基于KNN算法的文本分类方法精确度的对比分析结果和结论。