论文部分内容阅读
如今,社交媒体被广泛使用,全球范围内可共享大量用户生成的文本。社交媒体的不断发展产生了大量以评论和推文形式出现的不规则文本数据。基于文本数据的特征识别文本情感是人机交互和人工智能的交叉研究领域。文本情感分析已广泛用于政府管理,舆情分析、医疗卫生及商业决策中。目前,尽管现有的情感分析算法已经取得了相关的成果,但仍然存在一些问题和挑战。例如,以分布式单词表示的单词嵌入捕获了向量空间的语义,但是在很多情况下,由于嵌入的高维度和异构、稀疏性,如何解释它们成为了巨大的挑战。虽然卷积神经网络(Convolutional Neural Network,CNN)可提取文本特征在情感分析中成功,但无法通过较少的隐藏层有效地捕获长期依赖关系且梯度消散也会影响系统性能。递归神经网络(Recurrent Neural Network,RNN)利用固定大小的隐藏层捕获连续数据,逐个单词进行分析且可保留前一个单词的语义,但算法的时间复杂度较高。由于目标情感词可以存在于句子中的任何位置,传统的情感分析算法存在不能充分挖掘文本语义和上下文关系,导致情感分析结果的精度不高。针对情感分析研究领域面临的问题和挑战,本文主要研究了基于分布式单词表示和CNN、RNN模型的情感分析算法,以构建更健壮,智能和有效的模型用于文本情感分析。
本文的主要研究内容包括:
1.针对分布式单词表示中词嵌入的高维性,异质性和稀疏性的问题,基于嵌入维数,窗口大小和训练语料库大小,研究了基于分布式词表示的情感倾向模型,实现了基于word2vec,GloVe和FastText的分布式单词表示的情感分析算法,通过双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)处理机制学习单词的上下文信息,基于分布式单词表示捕获单词之间的形态关系并用于识别文本情感倾向。在STS语料库上的实验结果表明了该方法的有效性和可行性。
2.传统的CNN模型无法捕获与文本关联的长期依赖关系,若通过增加网络深度获取依赖关系会导致极高的算法复杂度及过拟合等问题。针对上述不足,提出一种改进的卷积神经网络模型用于情感分析,基于GloVe词嵌入方法表示文本,使用全局平均池化(Global Average Pooling,GAP)代替传统的最大池化来捕获文本的长期依赖,消除了完全连接层和自身正则化而产生的dropout影响,体现了该方法的鲁棒性。在多个twitter语料库上的实验结果表明该模型仅需要学习少量的超参数,其中在STS语料库的准确度可达90.59%,在SST数据集的准确度达到89.46%,在HCR数据集的准确度达到88.72%,体现了该方法的有效性。
3.感知文本内容的主观检测是情感分析的研究方向之一,而基于分布式单词表示获取句法、语义和语境情感信息的研究成为前沿性热点领域。本文基于主流的分布式单词表示模型Word2vec,FastText和GloVe设计了密度高效级联表示(Dense Efficient ConcatenatedRepresentation,DECR)策略,提出了改进的双向递归卷积神经网络的情感分析算法,构建了面向Bi-LSTM和Bi-GRU的加权机制以获取长期依赖关系,捕获语法和语义规律及例外词,实现了基于分布式单词表示和改进双向递归神经网络的情感分析。仿真实验结果表明所设计的分布式单词级联表示策略有利于实现长序列编码,可保持长文本的基本信息,在STS,SST和IMDB电影评论数据集上的情感分析精度达89.67%,相较对比算法体现了一定的竞争力。
本文的主要研究内容包括:
1.针对分布式单词表示中词嵌入的高维性,异质性和稀疏性的问题,基于嵌入维数,窗口大小和训练语料库大小,研究了基于分布式词表示的情感倾向模型,实现了基于word2vec,GloVe和FastText的分布式单词表示的情感分析算法,通过双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)处理机制学习单词的上下文信息,基于分布式单词表示捕获单词之间的形态关系并用于识别文本情感倾向。在STS语料库上的实验结果表明了该方法的有效性和可行性。
2.传统的CNN模型无法捕获与文本关联的长期依赖关系,若通过增加网络深度获取依赖关系会导致极高的算法复杂度及过拟合等问题。针对上述不足,提出一种改进的卷积神经网络模型用于情感分析,基于GloVe词嵌入方法表示文本,使用全局平均池化(Global Average Pooling,GAP)代替传统的最大池化来捕获文本的长期依赖,消除了完全连接层和自身正则化而产生的dropout影响,体现了该方法的鲁棒性。在多个twitter语料库上的实验结果表明该模型仅需要学习少量的超参数,其中在STS语料库的准确度可达90.59%,在SST数据集的准确度达到89.46%,在HCR数据集的准确度达到88.72%,体现了该方法的有效性。
3.感知文本内容的主观检测是情感分析的研究方向之一,而基于分布式单词表示获取句法、语义和语境情感信息的研究成为前沿性热点领域。本文基于主流的分布式单词表示模型Word2vec,FastText和GloVe设计了密度高效级联表示(Dense Efficient ConcatenatedRepresentation,DECR)策略,提出了改进的双向递归卷积神经网络的情感分析算法,构建了面向Bi-LSTM和Bi-GRU的加权机制以获取长期依赖关系,捕获语法和语义规律及例外词,实现了基于分布式单词表示和改进双向递归神经网络的情感分析。仿真实验结果表明所设计的分布式单词级联表示策略有利于实现长序列编码,可保持长文本的基本信息,在STS,SST和IMDB电影评论数据集上的情感分析精度达89.67%,相较对比算法体现了一定的竞争力。