基于递归卷积神经网络和分布式单词表示的情感分析算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:a8058058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,社交媒体被广泛使用,全球范围内可共享大量用户生成的文本。社交媒体的不断发展产生了大量以评论和推文形式出现的不规则文本数据。基于文本数据的特征识别文本情感是人机交互和人工智能的交叉研究领域。文本情感分析已广泛用于政府管理,舆情分析、医疗卫生及商业决策中。目前,尽管现有的情感分析算法已经取得了相关的成果,但仍然存在一些问题和挑战。例如,以分布式单词表示的单词嵌入捕获了向量空间的语义,但是在很多情况下,由于嵌入的高维度和异构、稀疏性,如何解释它们成为了巨大的挑战。虽然卷积神经网络(Convolutional Neural Network,CNN)可提取文本特征在情感分析中成功,但无法通过较少的隐藏层有效地捕获长期依赖关系且梯度消散也会影响系统性能。递归神经网络(Recurrent Neural Network,RNN)利用固定大小的隐藏层捕获连续数据,逐个单词进行分析且可保留前一个单词的语义,但算法的时间复杂度较高。由于目标情感词可以存在于句子中的任何位置,传统的情感分析算法存在不能充分挖掘文本语义和上下文关系,导致情感分析结果的精度不高。针对情感分析研究领域面临的问题和挑战,本文主要研究了基于分布式单词表示和CNN、RNN模型的情感分析算法,以构建更健壮,智能和有效的模型用于文本情感分析。
  本文的主要研究内容包括:
  1.针对分布式单词表示中词嵌入的高维性,异质性和稀疏性的问题,基于嵌入维数,窗口大小和训练语料库大小,研究了基于分布式词表示的情感倾向模型,实现了基于word2vec,GloVe和FastText的分布式单词表示的情感分析算法,通过双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)处理机制学习单词的上下文信息,基于分布式单词表示捕获单词之间的形态关系并用于识别文本情感倾向。在STS语料库上的实验结果表明了该方法的有效性和可行性。
  2.传统的CNN模型无法捕获与文本关联的长期依赖关系,若通过增加网络深度获取依赖关系会导致极高的算法复杂度及过拟合等问题。针对上述不足,提出一种改进的卷积神经网络模型用于情感分析,基于GloVe词嵌入方法表示文本,使用全局平均池化(Global Average Pooling,GAP)代替传统的最大池化来捕获文本的长期依赖,消除了完全连接层和自身正则化而产生的dropout影响,体现了该方法的鲁棒性。在多个twitter语料库上的实验结果表明该模型仅需要学习少量的超参数,其中在STS语料库的准确度可达90.59%,在SST数据集的准确度达到89.46%,在HCR数据集的准确度达到88.72%,体现了该方法的有效性。
  3.感知文本内容的主观检测是情感分析的研究方向之一,而基于分布式单词表示获取句法、语义和语境情感信息的研究成为前沿性热点领域。本文基于主流的分布式单词表示模型Word2vec,FastText和GloVe设计了密度高效级联表示(Dense Efficient ConcatenatedRepresentation,DECR)策略,提出了改进的双向递归卷积神经网络的情感分析算法,构建了面向Bi-LSTM和Bi-GRU的加权机制以获取长期依赖关系,捕获语法和语义规律及例外词,实现了基于分布式单词表示和改进双向递归神经网络的情感分析。仿真实验结果表明所设计的分布式单词级联表示策略有利于实现长序列编码,可保持长文本的基本信息,在STS,SST和IMDB电影评论数据集上的情感分析精度达89.67%,相较对比算法体现了一定的竞争力。
其他文献
电感电容压控振荡器被广泛应用于时钟生成器和频率合成器等电路中。随着通信系统的发展,对压控振荡器的带宽和近边带相位噪声性能提出了更高的要求。另一方面,电感电容压控振荡器通常使用片上螺旋电感,其具有品质因数较低、单位面积电感值较小和电感值不可调节等缺点。针对这些问题,本文研究了降低振荡器的幅度-相位调制(AM-PM)转换以降低近边带相位噪声和提高有源电感的品质因数的方法。本文对电感电容振荡器中交叉耦合
合成孔径雷达(SAR)原始数据量非常大,给信号的传输和存储带来很大的困难,为解决这个问题,必须采用数据压缩技术。本文研究SAR原始数据压缩算法,对目前该领域所涉及的标量量化、矢量量化、预测编码和变换编码四类技术进行了分析和比较。在现有算法的基础上,改进并提出几种新的算法。对实测SAR原始数据压缩处理的结果表明,文中提出的算法能在一定程度上实现性能和复杂度之间的合理折衷。  论文第一章绪论,阐述了S
铝电解作为我国生产原铝最主要的手段,其生产环境恶劣,导致铝电解槽生产故障类型多、对系统及环境危害大,发展铝电解故障诊断技术对提升生产效率与安全性具有重大意义。目前我国的铝电解故障诊断及预测研究仍处于起步阶段,普遍存在目标故障单一、使用特征单一、预测时间短与诊断准确率低等问题。由于工业现场铝电解生产数据通常表现为缺失、质量低等特征,进一步限制了铝电解多故障诊断及预测研究的发展。针对上述问题,本文以铝
学位
铝电解生产过程中的阳极效应将导致能耗增加、电流效率降低,进而导致生产效率下降。因此,及时有效地预测阳极效应有助于避免以上问题的发生。在实际生产中,由于诸多问题,导致有标签数据量不足,极大地限制了传统数据驱动的阳极效应预测方法的性能。最近,迁移学习理论利用源域充足的有标签数据帮助缺乏标签数据的目标域构建可靠的模型,为解决上述难题提供有效的手段。因此,本文以中国两个铝电解厂实际生产数据为研究对象,针对
学位
实时调度是指将多个信源的数据整合成一路,通过物理信道传输给接收设备的过程,是卫星遥感、深空探测等空间数据传输的关键环节。随着空间数据获取需求的日益增长,探测手段日益丰富,多种异构高速的载荷数据流需要通过有限的数传通道传输,急需发展面向多源异构高速数据的星载实时调度技术,以保证数据传输效率和可靠性。而实时调度技术的研究面临“优先级实时表达”、“系统受限调度”、“SEU可靠防护”等三大难题,本文在深入
由于3CCD专业摄像机是采用三个传感器(3CCD)来分别获得图像的各像素点三个通道的颜色值,进而获得图像的全彩色图,因此3CCD专业像机成本昂贵,且制造困难。当前数码彩色相机普遍使用带有彩色滤光片阵列(CFA)的单个传感器来捕获图像,其中Bayer阵列应用最为广泛。随着Bayer格式图像数据量急剧增加,给信道带宽和数据存储容量带来很大的压力,图像压缩是目前解决这一问题最有效的方法。由于Bayer阵
学位
小型机载平台运动目标检测广泛应用于军事侦察、救援勘探等领域。小型机载平台属于典型的动平台运动目标检测场景,目标运动的同时,成像平台也在运动,受成像距离影响,目标尺寸较小,目标检测难度大;然而,小型机载平台又是一种典型的嵌入式应用场景,计算资源、存储资源受限,对实时性有着极高的要求,对功耗和体积约束严格。因此,本文深入研究了面向小型机载平台的运动目标实时检测算法,及其硬件加速实现。  首先,本文根据
学位
学位
学位