面向短文本的情感分析关键技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tiny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络和电子商务平台已变成庞大的公共信息集散地,海量信息数据的挖掘与价值赋能一直在进行。数据科学第四范式的提出,为深度学习在大数据和人工智能(ArtificialIntelligence,AI)领域大显身手提供了理论基础,自然语言处理(NaturalLanguageProcessing,NLP)也深受其益,迅猛发展。利用海量互联网数据对人们的情感和观点进行分析,有着重要的科研价值和社会价值。NLP中的情感分析是最活跃的研究领域之一,已经从计算机科学扩展到管理学和社会学,如市场营销、金融、政治、历史甚至医疗。观点几乎是所有人类活动的核心,是影响人们行为的关键因素,如何利用NLP技术对主观意见文本进行情感分析,被越来越多的研究人员关注。在NLP中,不同于传统语义分析,情感分析更聚焦与观点有关的情感语义,包括文本情感极性分类问题等,需要更深层次的理解和建模。另外,社交网络文本和产品评论篇幅短,针对性强,往往包含更丰富的情感信息。相较于传统机器学习算法,深度学习不依赖人工构建特征,具有特征的自学习能力,非常适合语言文本的抽象、高维、复杂等特点。本文针对短文本情感分析问题,依据不同的任务阶段、场景和粒度,研究设计有效的深度学习解决方案。论文的主要工作和成果如下:1.提出了一种基于混合词嵌入的交互注意力网络(HybridWordEmbeddingBasedInteractiveAttentionNetwork,HWE-IAN),该模型主要解决传统词嵌入对文本情感语义表达不足,以及不同领域间语义鸿沟的问题。HWE-IAN利用预训练算法BidirectionalEncoderRepresentationsfromTransformers(BERT)对传统词嵌入的情感语义表征能力予以补充,在任务预处理阶段充分挖掘文本蕴含的情感语义信息;同时融入了词性信息、位置信息和n-gram信息等多种语义特征,使模型具有更加丰富的情感语义表达;模型还使用注意力机制让各类特征进行交互,抽象更深层次的上下文内部语义关联,以提升模型的情感分类性能。最后,在两个公开英文情感分类语料上进行实验,结果证明HWE-IAN模型优于其他对比模型,有效提高了情感分类性能。2.提出了一种多头注意力记忆网络(MemoryNetworkbasedonMulti-headAttention,MAMN),该模型解决了多头注意力机制和记忆力网络的性能瓶颈,进一步充分挖掘短文本蕴含的情感语义特征和上下文内联结构关系。MAMN模型利用n-gram特征和ON-LSTM网络对多头自注意力机制进行改进,以对文本内联关系进行更深层次的提取,使模型可以获得更丰富的文本特征信息;同时利用多头注意力机制对多跳记忆网络结构进行优化,以对短文本上下文内部语义结构进行有效建模,充分挖掘高层情感语义特征。最后在三个公开英文用户评论数据集上对模型进行实验评估,结果验证了MAMN在情感分类任务中的有效性,其分类性能优于CNN、LSTM和胶囊网络架构的其它基线任务模型。3.提出了一种结合多跳注意力的迁移胶囊网络(TransferCapsuleNetworkwithMulti-hopAttention,MHA-TCap),该模型针对特定领域中有标注训练数据稀缺的问题。同时,从面向领域类别的细粒度情感分类任务入手,MHA-TCap模型探究了小数据集上性能提升的方法。模型采用深度记忆力网络和胶囊网络构造迁移学习框架,有效借助胶囊网络的迁移学习特性,将相近领域大规模标注数据蕴含的知识迁移至目标领域,提升在小数据集上的分类性能。MHA-TCap使用多维组合特征弥补一维特征注意力机制的不足,而多个基于领域类别的注意力计算层进行叠加,可以获取更深层次针对特定领域的情感特征信息。实验在一个公开中文评论数据集(包含六类领域数据)上进行,结果不仅表明该模型具有良好的分类性能,还验证了其迁移学习能力,最后证明MHA-TCap对于更细粒度面向目标的情感分类任务也有很好的泛化能力。4.提出了一种基于注意力机制的混合胶囊网络(Attention-basedAspect-levelSentimentCapsuleNetwork,ABASCap),该模型主要针对面向目标(aspect)的细粒度情感分类问题,通过研究目标与上下文之间内部关联更合理的建模方式,更加有效的挖掘与目标有关的情感语义特征。模型使用改进的多头注意力机制对n-gram特征进行加工,以捕获文本内部结构以及目标与上下文之间的语义关联;定义了局部窗口大小(LocalContextWindow,LCW)来明确目标相关局部上下文区域,提出局部上下文掩码机制(LocalContextMaskMechnism,LCM)对其进行处理,并结合多头注意力机制对目标与局部上下文的强关联进行建模;采用胶囊网络生成最终的文本表征,并根据任务特点对路由算法和激活函数进行优化。最后在三个细粒度情感分类数据集上对模型进行评估,实验结果表明ABASCap模型的性能优于其他基线模型,在结合BERT之后性能提升更加显著,充分证明其在面向目标情感分类任务中的有效性。
其他文献
京商财务字[2020]9号各区商务局、经济技术开发区商务金融局,相关企业:为做好2020年度外经贸发展资金项目申报工作,依据《北京市商务委员会北京市财政局关于印发(修订稿)的通知》(京商务财务字[2018]23号)、《北京市商务局关于新型冠状病毒肺炎疫情防控情况下稳定商务发展有关措施的通知》(京商综字[2020]1号)等文件,现将2020年度
随着社会、经济和科技水平的快速发展,国内机场建设水平不断提高,建设规模不断扩大,民航客运运营压力日益增加,对飞机牵引车自动控制发展提出了新的需求和挑战。以大型客机的研发、试飞和运营为契机,深入研究智能型飞机牵引车及其自动控制系统,对于我国航空工业的发展具有重要意义。通过飞机牵引车级联系统仿真设计,确定了仿真系统功能指标和参数指标。通过仿真实验研究了牵引过程的运动方式
鉴于我国目前燃煤排放SO2、NOX和Hg造成的环境污染严重状况,干法同时脱除技术具有脱除效率高、成本低、无二次污染以及便于布置等优点,特别是活性炭纤维(ACF)作为一种新型的炭质催化吸附材料,较以往的颗粒状活性炭、粉状活性炭,拥有更优越的吸附和脱附再生性能。虽然从上世纪60年代起国外已开始研制ACF,近年来国内外开始研究将其用于烟气净化,已取得了一些成果。其主要对脱除单种污染物的研究较多,但对于吸
学位
学位
Ad Hoc网络是一种由移动节点组成、拓扑结构动态变化的自组织网络.网络中没有固定的网络基础设施.由于移动主机的通信范围有限,相距较远的主机需要通过其他主机的"多跳"转发才能通信,因此网络中的主机同时也作为路由器为其他主机转发报文.该文介绍了无线Ad Hoc网络的研究方向和进展,并以几种典型的路由协议DSDV,TORA,DSR和AODV为主,对这些协议的内容、特点和优缺点进行了说明、分析和评价.A
学位
电影是一门艺术,是一种与音乐、图片和其他叙事方式紧密相连的艺术形式,文学在改编为电影的过程中是对文学作品的延续。主要故事情节方面不会有过多的改动,只是在叙事风格和叙事顺序方面与文学作品有所不同。本文首先分析《了不起的盖茨比》电影改编大获成功的原因,而后从文学作品和电影的叙事风格和语言风格两方面进行比较,最后对文学作品与电影所表达出来的共同主旨进行阐述。
挪威联合攻击导弹与F-35的结合,使后者的对海打击能力得到较大提高。基于JSM空舰导弹的基本性能参数,从隐身能力、防区外攻击能力、突防能力、协同作战能力和多任务能力等方面,探讨了JSM空舰导弹的作战性能特点。
制造业作为我国最大的产业和国民经济的重要组成部分,过去的高速发展主要得益于成本优势,但近年来随着人工成本的上升,成本优势已日趋缩小。在制造业盈利能力普遍下滑的背景下,如何进一步优化税收政策,增强制造业企业的国际竞争力,是当前需要研究的一个重要课题。现有学者对中美税费的比较研究大多停留在国家层面,且仅考虑了占比较大的增值税、企业所得税等税种,未考虑到社会保险费等各项税外收费也给企业带来了很大负担,未
老虎洞遗址位于浙江省杭州市萧山区闻堰镇老虎洞村北部。2013年3~7月,杭州市文物考古研究所联合杭州市萧山区博物馆对其进行了发掘,清理墓葬34座。其中M1为南朝刘宋时期纪年砖室墓,墓砖上有会稽永兴西乡相藏里许督自书之等文字,这是萧山在六朝时期称为永兴的第一个实物证据。M1不仅发现了纪年铭文砖,还有纪地铭文砖,且该墓形制明确,出有青瓷标形器,信息量丰富。M26为东吴晚
本文在前人的研究基础上,用活性炭为催化剂,在以下四个不同角度对活性炭脱除硫化氢的原理做了研究,主要研究内容如下:一氧气充足和不足的情况下活性炭脱除硫化氢的研究研究了氧气充足和氧气不足的两种情况下活性炭对硫化氢的脱除,考虑了温度的影响,不同浸渍剂的影响以及原料气中二氧化碳的存在对反应的影响,二从含二氧化碳原料气中脱除硫化氢的研究分别在低温(25℃)和高温(500℃)下研究了二氧化碳对活性炭脱除低浓度
学位