跨语言文本情感原因发现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wc8861
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前情感分析的工作主要集中于对文本情感进行分类,但对发现文本情感产生原因的研究较少。文本情感原因发现主要研究自动识别文本中激发群体或个体情感的因素或事件的方法。目前情感原因发现方法大致可以分为基于规则的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则的方法存在覆盖率低、通用性差的问题。基于统计机器学习的方法存在需要大量繁琐的特征筛选的不足。基于深度学习的方法则往往受到缺乏大规模标注数据的困扰。为此,本文从单语言情感原因发现模型改进和跨语言情感原因发现两个角度出发,研究提高文本情感原因发现性能的方法。本文针对现有情感原因发现模型往往忽略文本情感表达与情感原因之间关系不足,提出一种基于门控循环单元(Gated Recurrent Unit,GRU)、卷积神经网络(Convolutional Neural Network,CNN)以及层级注意力机制的情感原因发现方法。该方法采用门控循环单元加卷积神经网络来捕获文本序列块语义信息,结合注意力机制来对情感表达与情感原因之间的关系进行显式建模。在EMNLP2016公开数据集的实验结果显示,该模型的F1值超出目前效果最佳的记忆网络模型0.4个百分点。针对情感原因标注语料库规模较小的问题,本文研究了跨语言文本情感原因发现方法,将相对丰富的源语言情感原因标注文本迁移至语料匮乏的目标语言,通过引入更多的训练数据提高原因发现性能。本文提出了基于迭代法增广数据的跨语言情感原因发现方法。该方法通过机器翻译的方法获得目标语言候选训练数据,用训练好的情感原因分类器,对候选训练数据进行分类;而后将预测正确的数据加入训练集后对分类器重新进行训练,用于对预测错误的数据重新分类。通过迭代地进行数据增广和分类器训练,提高情感原因发现性能。该方法在EMNLP2016数据集上F1值优于记忆网络模型1.21个百分点。考虑到基于迭代法增广数据的跨语言情感原因发现方法受机器翻译性能影响较大,本文进一步研究了基于对抗训练的跨语言情感原因发现方法。此方法中,特征抽取器通过与判别器的对抗博弈以及情感原因分类器的梯度反向传播学习语言无关而与情感原因发现任务相关的特征。该方法在基于迭代法增广数据方法的基础上F1值进一步提高了1.29个百分点,达到了该数据集目前已知最好性能。
其他文献
无线通信技术的快速发展对无线设备的电池寿命和传输可靠性提出了更高的要求。一方面,射频能量收集技术,作为一种新兴的能量收集手段,能够有效解决低功耗无线通信系统中设备供能方式和电池寿命问题;另一方面,协作通信技术通过让用户间彼此共享天线形成虚拟MIMO系统,可对抗无线通信过程中的衰落问题并显著改善传输性能。基于射频能量收集的协作传输技术,因集成了两项技术的优势,近年来受到研究者的重视。多源单目标网络是
随着对互联网中的社会关系网络的研究热度不断提高,物理世界中的轨迹移动网络也得到越来越多的关注。如何挖掘不同用户在同一时间片段内轨迹移动的相似性,从中得到准确的轨迹
1986年,德国社会学家贝克出版了《风险社会》一书,书中开门见山地指出:当今人类社会生活在“文明的火山上”,由此首次提出风险社会理论。随后,受风险社会理论的启发,刑法学者
点阵材料零件是一种集高比强度、高比刚度与储能、吸能、隐身、阻尼、热控于一体的多功能轻质材料零件,且其内部开放贯通的空间为多功能器件的埋藏提供了条件,因而已经广泛应
器官芯片是以微流体芯片为核心技术在体外模拟人类器官单位功能的微型细胞培养装置,器官芯片可用于构建疾病模型,代替新药研发过程中的动物实验,行使强大的筛选功能等多种用
互联网和移动互联网应用的快速发展带来了文本数据的爆炸式增长,使用人工方式分类和整理文本已经成为了不可能。如何在海量的文本数据中实现对文本的快速分类并应用于后续的
程朱理学在元代被确立为官方统治思想,明代统治者承袭元制,自明朝建立初期就扶持并确立了程朱理学的官方思想地位。相对于明初的社会状况,明朝中期时的经济更加繁荣、政治也
自我国《民事诉讼法》引入行为保全制度以来,关于行为保全制度的适用及审查问题因其不确定性而广受关注。在知识产权诉讼中,由于传统诉讼模式在救济性上存在不能及时给予权利
学位
教师进行物理教学活动期间着重将精力放在物理知识的应用上,忽视了学生理解物理知识的过程,这是传统物理教学中经常出现的现象。解决物理问题的关键是如何正确表征物理问题。