论文部分内容阅读
在二十一世纪的大数据时代里,信息呈爆炸式增长,文本作为信息的一种重要承载方式,如何在海量的数据信息里对文本进行自动分类以便存储、管理以及检索,成为了一项值得研究的课题。早期的文本分类主要基于知识工程,人为地去定义并提炼出分类的规则,然后按照分类规则以人工的方式来构建分类器,这种方法费时费力。随着机器学习的兴起,为了克服这种困难,机器学习分类技术开始取代早期的分类方法。然而,传统的机器学习方法仍需要花费大量的时间去构建特征工程。深度学习作为机器学习的一个分支,近年来随着高性能计算的发展引起了广泛的影响,而如何利用深度学习去完成包括自动文本分类问题在内的自然语言处理领域的任务,也成为了一个研究热点。本文的主要工作是将深度学习模型应用在中文文本分类问题上。首先,在文本表示方面,针对传统的文本表示方法往往没有考虑词与词之间的位置关系,忽略了上下文之间的联系,且维度比较稀疏,结果造成语义信息缺失的问题,采用一种基于分布假说的神经网络分布式表示方法——词嵌入(Word Embedding)。本文通过神经网络语言模型中负采样的方式,预训练大量的中文新闻文本语料,无监督地学习得到中文词向量表示。实验结果表明,以词嵌入的表示方法作为文本特征,模型分类测试指标的F1值均取得了较好的结果。其次,在分类器构造方面,针对传统的机器学习方法需要花费时间和精力手动构建特征工程的问题,本文设计了两个常见的能够自动提取特征的深度学习模型——卷积神经网络(Convolution Neural Network,CNN)和长短时记忆神经网络(Long Short-Term Memory Network,LSTM),并将这两种模型应用于中文新闻文本分类的实验中。实验结果表明,相比于传统的k近邻、朴素贝叶斯以及支持向量机的机器学习文本分类模型,基于CNN和LSTM模型进行文本分类实验,分类测试指标的F1值结果均好于传统的机器学习模型。最后,在提升模型分类性能方面,针对自然语言处理的编码-解码模型中,编码和解码之间仅通过一个固定的语义编码联系起来,而造成部分信息流失的这个问题,引入了注意力(Attention)机制。本文对经典的CNN和LSTM文本分类模型进行了改进,设计了两种基于Attention的文本分类模型——CNN-Attention和LSTM-Attention。实验结果表明,相比于经典的CNN和LSTM模型,引入Attention后的两种模型,分类测试指标的F1值均有一定程度的提升。