论文部分内容阅读
随着互联网信息技术和智能设备的快速发展,人们可以随时随地通过手机在社交平台上浏览和发布信息,诸如微博、微信等社交应用,每天都有海量的文本数据产生。面对数据量的爆炸式增长,如何有效地对文本数据进行分类成为自然语言处理中一项重要的课题。现阶段,基于机器学习的文本分类方法和基于深度学习的文本分类方法都取得了较好的分类效果,人们在模型如何学习文本内容特征以及提升模型注意力等方面已经做了很多研究。但是,在长文本分类中,如新闻、小说、阅读理解、微博等文本,文本与文本之间存在着层次结构特征。而且对于段落文本来说,模型不仅需要关注关键词与非关键词对分类结果的影响程度,而且需要关注段落中不同句子之间亲和度的大小。为此,本文对层次模型和注意力机制展开深入研究,在卷积神经网络和双向长短期记忆网络模型基础上,改进文本分类模型。本文主要工作分为以下三个方面:(1)提出了基于非负矩阵分解和支持向量机(NMF-SVM)的文本层次特征提取方法。首先,改进词移距离相似度算法(WMD)为词性词移距离算法(SWMD),通过缩短相同词性的空间语义距离,来优化由NMF-SVM分类器提取到的文本标签。其次,利用优化后的文本标签构建树型层次模型。最后,对层次树进行路径编码,以层次树中根结点到叶结点的路径编码表示提取到的对应文本的层次特征。(2)提出了基于四要素词和句间亲和度的注意力机制(SEAN)。通过提出四要素词性规则,对文本中时间、地点、人物和事件四种要素进行提取,进而得到不同词之间的注意力。并针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。针对四要素突出的数据集,利用注意力机制SEAN,可以有效地将文本中的词语和句子共同关注起来。(3)提出了基于层次特征和注意力机制的分类模型HAF-CBLSTM(Convolutional Bi-directional Long Short Term Memory networks based on Hierarchical and Attention Feature)。本文使用卷积神经网络模型和长短期记忆网络模型作为分类基础,利用卷积神经网络能够减小输入的维度、双向长短期记忆网络能够学习长距离的信息的特点,来解决长文本维度大的问题。然后,将文本层次特征和SEAN方法结合到深度学习分类模型上,得到新的混合模型HAF-CBLSTM,从而使模型可以学习到的不同层面的特征。在复旦新闻数据集上进行实验,验证了改进后混合模型HAF-CBLSTM的有效性。