论文部分内容阅读
随着移动智能终端的蓬勃发展,我国已经迈入全民互联网时代。网民数量与日俱增,同时新闻、电子书等中文文本数据也在大规模增长。如何精确地将文本数据进行自动分类,成为了自然语言处理领域的热点问题。将中文文本数据进行自动分类,对信息管理和文本挖掘等方向的研究也有着极其重要的意义。传统的基于机器学习的文本分类算法一般使用TF-IDF算法来提取文本中的特征,但是这种方式会忽略词在文本中的其他特征以及词与词之间的联系,使最后提取的特征并不是很精确,从而导致分类效果不佳。所以现在自然语言处理领域中都会使用深度学习去处理文本分类问题,而基于深度学习的文本分类方法虽然在分类效果占有优势,但随着隐层的增加,算法的计算量也在不断增大,这样会消耗大量的计算资源以及时间。FastText文本分类算法的出现完善的解决了上述中的问题,这种文本分类算法与其他分类算法相比在保证分类准确性的同时还降低了时间开销,唯一不足的地方是FastText在输入层并没有对输入数据进行特征提取,会对算法的分类效果有一定的影响。因此本文主要研究并改进了 TF-IDF特征提取算法和FastText文本分类算法。主要研究内容如下:(1)研究并改进了文本的特征提取算法TF-IDF。由于传统的TF-IDF算法不但忽略了除词频之外的其他特征,而且没有考虑特征词在文本类别内和类别间的分布情况,针对这一不足,本文提出了 GF-IDF-IE算法,该算法基于TF-IDF算法进行改进来的。首先使用组合特征因子改进词频TF,其中组合特征因子包括了词性特征因子、词长特征因子、词位置特征因子以及词频特征因子;然后再结合信息熵因子对逆文档频率IDF进行改进,分别加入了类内信息熵因子以及类间信息熵因子来考虑特征词在文本类别内和类别间的分布情况。最后通过对比实验的方式验证了改进后的算法更适用于文本的特征提取。(2)研究并改进了 FastText文本分类算法。针对FastText在输入层并没有对输入数据进行特征提取的情况,本文首先使用传统的TF-IDF.算法对FastText的输入层进行特征提取;由于FastText文本分类算法加入了 n-gram,经过特征提取后的输入层数据在n-gram的处理下会产生大量无实际意义的词,需要过滤这些无实际意义的词。经过了特征提取和对n-gram结果进行过滤后,剩下的输入层数据都是文本的重要数据。这一改进不但减少了噪声数据的输入,在一定程度上还增强了 FastText文本分类算法的分类效果。(3)基于(1)提出的GF-IDF-IE算法改进FastText文本分类算法。首先基于GF-IDF-IE算法提取出训练文本数据中每个类别的关键词生成补充数据,在(2)中由于对FastText的输入层进行了特征提取,并且过滤了n-gram的处理结果,这样处理后可能会使输入数据过短(一般少于160个字符),同时FastText文本分类算法也可能由于输入的数据量过少而影响分类效果,所以需要对(2)中的输入数据进行数据补充。首先判断输入数据长度是否过短(少于160个字符),如果是,则需要将GF-IDF-IE算法生成的类别补充数据加入到对应类别的输入数据中去,完成数据的补充。最后的数据则可以进入FastText算法隐层进行分类计算。(4)本文通过实验实现了目前主流的文本分类算法,包括基于机器学习的文本分类算法、基于深度学习的文本分类算法以及经典的FastText文本分类算法,将改进后的FastText文本分类算法在精确率、召回率、F1值、算法执行时间上与目前主流的文本分类算法进行对比,最后得出的结论是本文改进后的FastText文本分类算法在文本分类上具有更好的分类效果。