论文部分内容阅读
随着互联网的飞速发展,以网络为载体的文本信息也呈现出爆炸式增长的趋势。这些海量数据依靠人工进行管理和分类会不仅会耗费大量人力和时间,同时也难以实现。所以,如何高效地组织和管理这些文本信息是自然语言处理领域的一大研究热点,这也促进了自动文本分类技术的长足发展。目前,在文本挖掘、信息过滤与检索等领域,自动文本分类技术已经得到了广泛的应用。自动文本分类是一个涉及到机器学习算法、优化理论以及自然语言处理等多个领域知识的技术。因此,许多因素会影响到自动文本分类的性能,例如:文本的预处理、文本表示模型的选择、特征降维算法、文本分类器的设计等。在众多的影响因素中,文本表示模型以及文本分类器的设计是自动文本分类领域的两大研究热点。本文首先讨论了文本分类的研究背景和意义,分析国内外研究动态和热点,阐明了文本分类各个流程的具体实现。在此基础上,本文主要在文本表示模型以及深度学习在文本分类中的应用两方面展开深入研究,并取得如下成果:(1)提出了一种基于神经网络语言模型的特征聚类算法:NNLM-FC。针对传统向量空间模型中词向量语义缺失、维度过高以及特征集合中存在大量同义词和近义词的问题,利用神经网络语言模型将特征词转化为低维的语义向量,使用K-means聚类算法将语义相似的特征词进行聚类,利用卡方统计算法计算每个特征词的卡方统计量,选择聚类簇中卡方统计量大的特征词用于文本表示,最后得到了基于神经网络语言模型的特征聚类算法(NNLM-FC)。在复旦大学语料库和网络爬虫数据集上使用朴素贝叶斯、支持向量机和K-近邻分类器,使用分类结果的正确率、1F值作为度量标准,与常见的特征选择算法进行了全面的对比。实验结果证明本文提出的算法不仅能够有效的降低向量空间的维度,而且能提高文本分类的性能。(2)提出一种基于加权词向量的深度学习文本分类模型。针对传统深度学习模型不能很好区分词向量重要程度以及CNN模型丢弃了大量有用特征且不适合处理序列化文本的问题,首先提出一种新的特征权重计算方法(TDC),利用该算法对词向量进行加权处理,同时去除那些重要程度低的特征词,从而减小了深度学习输入矩阵的维度。接下来将CNN模型与LSTM模型结合起来,利用CNN模型提取文本中丰富的特征,结合LSTM模型处理序列数据的优势,使用加权后的词向量作为输入,最终得到了基于加权词向量的深度学习模型:W-CNN-LSTM。通过在Stanford Sentiment Treebank和Movie Reviews数据集上的实验证明了W-CNN-LSTM模型的分类性能优于传统的深度学习模型。