基于注意力网络和情感词向量的方面情感分析研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xuan_98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是自然语言处理中的一项重要任务,其通过挖掘用户的评论文本,获取用户的情感观点倾向,具有巨大的实际应用价值。根据分析对象的粒度不同,情感分析可分为文章情感分析,句子情感分析和方面情感分析。其中,方面情感分析最为特殊,该任务需要针对评论文本中的不同情感表达对象给出其对应的情感极性。这种指向性的情感分析任务相较于其他两种任务具有更大的价值,近年来受到越来越多研究者的关注。深度学习作为一种强大的机器学习模型,已逐渐成为方面情感分析研究的主流方法。尤其是使用注意力机制的注意力网络在近些年的研究中已取得了非常好的效果。但现有模型存在没有充分利用目标文本信息等问题。由于情感分析任务一直被认为是种特殊的文本分类任务,一些研究者在进行注意力计算时,把评论文本作为整体计算注意力,但是却忽略了目标文本的重要性。一些工作虽然将目标作为独立信息考虑,但是没有计算目标级上的注意力。词向量中缺少情感信息也影响了模型分类准确性。针对以上问题,本文围绕注意力网络,利用目标信息和上下文信息,对方面情感分析进行研究。具体工作如下:1.针对目标文本利用不足的问题,我们构建了多头叠加注意力模型(multi-head attention over attention,MHAOA)。我们借鉴问答系统中的叠加注意力思想,通过综合考虑目标级和上下文级两种注意力关系,构造叠加注意力网络。但是这种注意力网络在计算注意力得分矩阵时使用的点积计算法不能充分建立目标和上下文关系,并且遗漏了文本位置信息。因此我们使用新的计算方法代替点积,并且在注意力模型中考虑了文本位置信息,同时在注意力计算时使用多头注意力思想进一步增强模型鲁棒性。由于改进后的注意力模型同时具备着叠加注意力的特点和多头注意力的特点,我们最终将其命名为多头叠加注意力。由于基础网络不同,模型的性能相差会很大,为了更准确验证MHAOA在方面情感分析的有效性和适用性,我们将该注意力模型应用在三种不同的基础网络中,并且得到了三种基于MHAOA的神经网络,分别是以词向量编码网络为基础的MHAOA-GloVe,以LSTM网络为基础的MHAOA-LSTM和以BERT网络为基础的MHAOA-BERT。然后我们在三个方面情感分析任务的公开数据集上,将三种模型用准确率和宏平均F1两个评价标准与现有其他模型进行对比实验,实验结果表明基于MHAOA的模型对比现有模型均有着有竞争力的表现。这证明了MHAOA能有效的针对情感目标匹配到对应的上下文描述,从而提升模型最终的情感分类结果。2.针对MHAOA模型中输入词向量不具备情感信息的问题,我们构建了情感词向量。在对MHAOA的进一步分析中,我们发现作为输入的词向量因为缺少情感信息,影响了模型的情感分析性能。为了进一步完善本文模型,我们将情感知识库的常识信息作为一种先验知识融入到分布式词向量中,生成具有情感信息的情感词向量作为输入,并在MHAOA-GloVe、MHAOA-LSTM两个模型上与原始分布式词向量进行对比实验。实验结果证明情感词向量有助于模型取得更好的情感分类结果。
其他文献
在最近二十年间,世界进入互联网时代,人们的线上社交活动与线下生活文化完全交织在一起,人们接受信息的方式也从被动转换为主动,每个人都成为了信息的挖掘者与传播者,各种社交媒体应运而生。微博作为国内主流网络社交媒体聚积了数亿用户,在上面用户可以对网络上新发布的政策、工业产品、时事热点等发表自己的观点立场,如何在特定目标话题下有效的对用户立场进行判断成为网络舆情分析的重要课题。微博文本具有网络化、噪音多样
目的:卫生系统反应性是指卫生系统对个体改善非健康方面普遍合理期望的认知和适当反应。本研究通过了解广州市属三级医院卫生系统反应性的现状,分析当前广州市居民对市属三级医院卫生系统反应性评价中存在的问题并探讨其影响因素,为进一步完善和提高医疗机构特别是三级公立医院的卫生系统反应性提供科学依据。对象:本研究采用判断抽样的方法,首先从广州市属15家三级医院中抽取5家医院(3家综合医院、1家专科医院、1家中医
近年来,知识图谱的构建和应用迅速增长。知识图谱是指其节点是现实世界中的实体并且边是实体之间的关系的网络,表示为三元组形式(头实体,关系,尾实体)。这样由三元组形式的大量事实组成的网络建立了人类知识的结构系统。人们已经创建了大量的知识图谱,例如YAGO,NELL和Freebase。并且人们成功将其应用于很多领域,从语义解析和命名实体消歧到信息提取和问答。虽然这种结构能有效地表示结构化数据,但它却很难
随着人类社会的发展,越来越多的智能产品进入了我们的生活。而SIP协议由于其灵活开放的特点,被许多的智能设备采用为信令协议。在流媒体服务器方面,主要有HTTP渐进下载式服务器和基于RTSP的实时流媒体传输服务器,基于SIP协议的智能设备系统通常采用后者。但由于SIP协议只规定会话开启的方式,使得对于不同的智能设备系统的音视频编解码流程和传输方式可能存在很大的不同,极不利于终端的解码模块开发与服务器的
知识图谱是从大量事实中提取出来的。它大致分为两类,一类是从维基百科等知识库中提取的实体及其之间的联系;另一类是从大量页面中抽取的具有实体关系的三元组,这样的三元组内容更加丰富,也使得噪音较多。随着这些知识图谱的出现,人们开始利用有效的方法来获取知识图谱中的大量有价值的内容。为此,人们提出了许多查询语言。但是,这些语言中的语法不易被人们理解,因此,提出了许多基于知识图谱的问题回答算法。在人工智能领域
在如今的信息化社会,人们每天要面对着海量的信息并进行筛选。如何在复杂的数据中寻找到自己最关注的信息成为了一个重要而急迫的问题。个性化推荐系统作为筛选信息的核心技术,一直受到学者和研究人员的密切关注。传统的个性化推荐技术在推荐准确性方面已经取得了成功。但这些传统的推荐算法具有黑盒模型的不可解释性,深度学习在这方面尤其明显。“系统应如何向用户解释这些建议”这一基本问题尚未引起足够的重视。缺乏透明度使用
帝国竞争算法(Imperialist Competitive Algorithm,ICA)是由Atashpaz-Gargari和Lucas提出的一种群智能算法,该算法来源于对人类社会中国家的演变过程的模拟。种群内的个体被视为“国家”,在种群中,根据适应度的优劣,挑选出多个国家当做殖民国家,其它国家被视为殖民地,通过巧妙的设置其中的侵略、竞争机制,进而实现对优化问题的求解。作为一个出现时间较晚的群智
γ-亚乙烯基丁烯内酯作为重要的结构骨架广泛的存在于具有重要的生物活性与多样化结构的天然产物中,不仅如此,γ-亚乙烯基丁烯内酯结构具有良好的反应特性可作为相关天然产物
随着国内经济发展,基础设施大量建设,各城市都出现了用地紧张等限制城市发展的问题,因此将城市交通系统置于地下的想法应运而生,地下空间的开发利用成为了各大城市竞相开展的
激光诱导击穿光谱技术(Laser-induce breakdown spectroscopy,LIBS)技术是一种基于激光等离子体的原子发射光谱成分分析技术,在过去的二十年中,由于其快速、无损、原位、实时