基于深度学习的短文本情感分析

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:maliuzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代,微博和网购平台在人们的日常生活、学习和交流中发挥着越来越重要的作用,平台上的用户数据隐藏着丰富的情感信息。与此同时,这些海量的数据也吸引着越来越多的研究者参与到微博和网购等短文本数据的研究,如何有效表示短文本语义特征和深入地挖掘短文本潜在的情感信息是其中的重点和难点。传统机器学习方法使用的特征在向量空间模型上表现过于稀疏且缺乏短文本的语义信息,不能很好地识别短文本的语义特征和潜在的情感特征;虽然短文本情感分类在深度学习中取得了较好的效果,但是由于深度学习模型的“黑箱性”,无法解释网络层中提取特征的来源。为解决上述问题,本文从短文本中的情感词、词性和句法结构等语法关系的角度出发,分别提取了词的情感词性、位置信息和依存关系等短文本浅层学习特征,并结合深度学习中的注意力机制和卷积神经网络特征,通过融合浅层学习和深层学习的方法来学习短文本中的语义信息和潜在的情感信息,从而促进短文本情感特征的有效表达,提高短文本情感分类效果。针对神经网络的“黑箱性”,为提高网络的可解释性,本文提出了一种基于情感多通道的双向长短期记忆网络模型(BM-ATT-BiLSTM);针对传统机器学习方法的算法相对简单,和刻画样本特征存在局限性,本文提出了两种神经网络模型,一种是融合情感注意力的卷积神经网络模型(CS-ATT-CNN),另一种是融合情感注意力的多核卷积神经网络模型(CS-ATT-TCNN)。基于情感多通道的双向长短期记忆网络模型(BM-ATT-BiLSTM):(1)首先把短文本中提取的情感词性、情感词位置信息和依存关系等浅层学习特征映射到高维空间,形成三个高维连续特征向量;(2)再把三个特征向量与词嵌入拼接,输入到BiLSTM中,组成三通道;(3)然后在三个通道中分别加入注意力机制;(4)使用批归一化把三通道的网络传递到三个全连接层;(5)之后组合三个全连接层,输入到softmax分类层。实验在COAE2014、NLPIR和NLPCC2014等三个数据集上进行对比,结果显示本文提出的BM-ATT-BiLSTM效果最佳,在COAE2014上F1为95.54%,比LSTM模型提高了3.07%;在NLPIR上F1为88.76%,比LSTM模型高出1.67%;在COAE2014上F1为73.06%,比LSTM模型高出0.66%。CS-ATT-CNN和CS-ATT-TCNN具有相似的结构和功能,但CS-ATT-CNN优于CS-ATT-TCNN,这里只分析CS-ATT-CNN。融合情感注意力的卷积神经网络模型(CS-ATT-CNN):(1)首先使用卷积神经网络提取词嵌入的短文本特征;(2)然后使用注意力机制提取词嵌入中的情感注意力特征;(3)再将卷积神经网络提取的短文本特征和情感注意力特征进行融合,形成一个新的特征向量;(4)把这个特征向量输入到支持向量机中;(5)以支持向量机作为短文本最终的分类器。在COAE2014、NLPIR和NLPCC2014等三个数据集上进行对比实验,实验结果表明本文提出的CS-ATT-CNN在精确率、召回率和F1均表现优秀,而且优于一般的卷积神经神经网络,在模型训练时间上耗时少于LSTM模型及其衍生的LSTM模型,但是整体效果弱于本文提出的BM-ATT-BiLSTM方法。综上所述,本文提出的基于情感多通道的双向长短期记忆网络模型和融合情感注意力的卷积神经网络模型,在一定程度上学习了短文本内上下文语义信息,较为有效地挖掘了文本内隐藏的情感信息,缓解了语义丢失、特征矩阵稀疏和维度爆炸等问题,模型更具有泛化能力,更为有效地解释了短文本内的情感倾向性。
其他文献
胡方是清代岭南地区重要的儒学家、教育家和书法家。修德和教育,学问与著书是他一生所致力的工作。胡方著述甚多,现存可以查找到的如《周易本义注》六卷、《四子书注》十卷、《庄子注》四卷、《四书讲义》二十卷、《周易集解》四卷、《鸿桷堂诗文集》六卷、《南华经解》八卷。(不同典集对这些著作名称的记录略有出入)其中,《庄子》对他的影响很大。他不仅在作品中常常提及庄子,引用《庄子》,《庄子》还明显的影响到他的人生态
目的:第三腰椎横突综合征(TTLTPS)在临床腰臀部疼痛中很常见,一般在第三腰椎横突尖部或周围具有明显的阳性反应点。这些年来,由于科技的现代化,人们上班学习逐步网络信息化,使得久坐成为日常常态;生活学习的快节奏,使得人们休息和锻炼的时间均无法得到充分的保障,导致该病的发病率在上升,而发病人群的年纪在下降,越来越多的年轻人患上第三腰椎横突综合征[1]。近年来研究表明,针刀是治疗本病的有效方法,因此本
有机太阳能电池(OPVs)由于其可弯折、成本低、制备简易等优点在近年来吸引了广泛的关注。其中,彩色半透明有机太阳能电池(ST-OPVs)更是为商业化应用提供了无限可能性。目前的
目的:探讨单肺通气前低氧预处理(HPC)对肺叶切除术患者氧合的影响。方法:选取在本院择期行肺叶切除术患者58例,按照随机数字表法分为处理组(P组)和对照组(N组),每组29例。麻醉诱导插管对位后在行单肺通气(OLV)前,P组脱氧至SpO_2降为90%,即刻纯氧复氧使SpO_2回升至100%并继续通气3min,重复2次,每次SpO_2降至90%时测动脉血气,并记录SpO_2由100%降至90%所需的
加气灌溉技术是为了缓解长时间滴灌导致的根系缺氧问题而研究的农业灌溉新技术,目前加气灌溉已被证实有效改善了土壤通气性,并且增加作物产量、品质、水分利用效率等,且较多
P2P网络借贷是在互联网时代发展起来的新型融资方式,是金融领域的模式创新。该模式最早起源于英国,在国外发展一段时间后传入我国。P2P网络借贷进入我国初期,为缓解中小企业贷款困难问题提供了新的融资途径,同时也满足了我国投资者多元化的投资需求。在很长一段时间内,P2P网络借贷平台全国范围内呈规模式增长。但是由于我国对P2P网络借贷缺乏专门性的法律法规和有效的行政监管政策,导致在P2P网贷的发展过程中频
我国湖泊众多,湖泊周边的环湖区域拥有得天独厚的水域与陆域双重资源,在良好的观光资源的基础上,滨湖旅游风景区逐渐发展起来。休闲游憩作为滨湖风景区所承载的重要功能之一,
雾霾是一种比较常见的天气现象,在这种天气情况下拍摄的图像普遍存在质量较低的问题,如对比度下降、细节丢失等,从而给后续的图像处理和分析带来很大的困难。因此,为了在雾霾天气获取高质量的图像,需要对有雾图像进行去雾处理,以提高图像的对比度,丰富图像细节,保证计算机视觉系统在雾霾天气下的正常运行。对有雾图像的去雾研究主要分为两类:一类是采用图像增强的方法,另一类是基于物理成像模型的方法。采用图像增强的方法
推进马克思主义大众化,就必须不断对人民群众进行马克思主义理论以及马克思主义中国化成果的教育,让人们群众掌握马克思主义理论,并能够将学到的理论运用于实践活动,指导实践活动。本文着眼于中央苏区的社会教育,通过对中央苏区社会教育的研究,深刻认识中央苏区社会教育对马克思主义大众化的贡献,总结其现实启示和借鉴意义。全文包括以下五个部分:第一部分:为绪论部分,包括选题背景和选题意义、文献综述、研究内容和研究方
红砂作为超旱生小灌木,是荒漠地区分布最广泛的植物之一。通过抗旱性综合评价,筛选出影响评价抗旱性的关键指标及抗旱性优良的红砂家系,完善早期选择方法,为优良抗旱性红砂家系的选育和育种材料的推广提供科学依据,以期为我国红砂等灌木类植物进行家系早期选择提供一种可靠的方法。本实验于武威市凉州区育苗建立试验地,分别在2014、2015、2016、2017、2018年七月份,以红砂家系(即2a、3a、4a、5a