论文部分内容阅读
文本分类是自然语言处理领域的任务之一,在邮件检测、情感分析、和主题类型等领域都有广泛的应用。文本表示是文本分类的关键和基础。当前通用的文本表示方法是词袋模型或词嵌入模型,失去了大量的语义信息。近年来,文本数据量野蛮增长,深度学习高速发展,以及计算机的性能巨大提高,使得深度学习技术在对文本进行表示和分类方面受到了极大的关注。深度学习采用卷积神经网络、循环神经网络和注意力机制等对文本进行表示和分类,其效果要优于传统的机器学习模型,但是,目前网络上的文本在词语的使用方面较为随意,网络用户自行创造词语并被其他人大量的情况屡见不鲜。使得在文本分类任务中,对中文文本进行分词的时候,分词词典无法识别并切分这些网络新词,文本表示结果不够准确,一定程度上制约了文本分类模型的性能。本文提出了新词识别技术以及三个基于深度神经网络的文本表示和分类模型。具体如下:1.基于新词识别的零填充深度神经网络模型,NW-ZPDNN。针对分词工具无法准确识别网络新词的问题,本文提出新词识别技术对分词工具的分词结果进行处理,以得到更准确的分词结果。同时,借鉴深度学习在文本表示上的优势,设计了基于深度学习的NW-ZPDNN模型,使用zero padding技术将不定长文本转换成定长文本,使用BiRNN提取高层次文本上下文语义信息,使用CNN提取更加抽象的语义信息,并减少计算量。之后使用最大池化操作来获取文本的关键信息,最后采用softmax分类器进行分类。实验表明,NW-ZPDNN模型在处理文本分类问题时,取得了较高的准确率。2.基于新词识别的滑动循环神经网络模型,NW-SLDNN。针对分词工具对网络新词识别能力不足的问题,依然采用本文提出的新词识别技术,得到更加准确的分词结果。同时,提出滑动循环神经网络,重点关注文本的局部上下文信息,使用1x1卷积神经网络引入非线性因素增加模型的表达能力,并且实现跨通道通信,从而达到提取到更高层次的文本特征的目的,还降低了计算量。之后使用最大池化操作来获取文本的关键信息,最后采用softmax分类器进行分类。试验表明,NW-SLDNN模型在处理文本分类问题上,取得了较高的准确率。3.基于新词识别的注意力机制神经网络模型,NW-AttenDNN。针对分词工具对网络新词识别能力不足的问题,依然采用本文提出的新词识别技术,得到更加准确的分词结果。在文本信息提取上,采用动态循环神经网络和注意力机制,将不定长文本进行编码并提取高层次语义信息,然后将编码进行解码得到一个统一长度的序列特征,经过全连接层的转换后采用softmax分类器进行分类,试验表明,NW-AttenDNN模型在处理文本分类问题上取得了较高的准确率,由于加入了注意力机制,使得文本的关键信息保留的更加完整且模型也具备可解释性。