论文部分内容阅读
随着互联网科技的蓬勃发展,网络评论不论是在国家层面还是在人们的日常生活中都起着举足轻重的作用。对于网络上的文本进行分析是一个非常具有现实意义的任务。我们中华文字充满着丰富的语义信息,很多时候,同样的词语在不同的语境下有着截然不同的意思,并且中文的研究还需要对文本进行分词、繁简体转化等处理,因此对中文的文本进行分析要比英文文本分析面临更多的挑战。文本情感分析是文本分析中不可忽略的一部分,许多时候我们必须了解一个句子、一条评论、一段话的情感才能够更加全面准确的理解语句的真实含义。现如今人工智能正在逐渐改变人们的生活。深度学习对人工智能起着推进作用。在深度学习基础上发展而来的人脸识别、语音对话、文本分析技术正应用于我们手机的App之中,对文本的情感进行分析是文本分析技术的一个重要应用。深度学习当中有许多的神经网络,在众多的神经网络之中,卷积神经网络(CNN,Convolution Neural Network)具有局部感知能力能够提取数据中的局部信息,而循环神经网络更适合于研究序列化数据。语言本身就是序列化数据,并且语言的上下文存在语义关系。长短期记忆神经网络(LSTM,Long Short Term Memory)是循环神经网络的一种,耦合输入和遗忘门模型(CIFG,Coupled Input and Forget Gate)是LSTM的一个变形。本文将CNN与CIFG两者进行结合,提出卷积耦合输入和遗忘门网络模型(CNN-CIFG,Convolution Neural Network-Coupled Input and Forget Gate)解决影评文本的情感分析问题。本文首先通过网络爬虫技术爬取豆瓣网上影视作品的影评文本信息。因影评数据具有内容随意、多样性等特性,最初要将影评文本进行数据清洗以及繁简体转化、文本分词、情感标注等预处理操作。然后将经预处理后的文本向量化,将影评文本转化为计算机能够认识的一种形式,再将向量化后的数据传入神经网络模型。经过不停地迭代优化,得到可以用于影评情感分类的模型。经实验对比分析,本文构建的卷积耦合输入和遗忘门网络模型(CNN-CIFG)可以更好的学习文本中的情感信息,对正面和负面文本的分类性能在多个评价指标上都有提高。