基于Transformer与自监督学习的情感分析模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:pisahaochima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,由用户创造的内容在线上内容中的占比不断增长。以用户评论为例,不少网民在观看影片后会发布影评,在电商平台购物后会发表商品使用体验评论。由此产生了海量的用户评论数据。从这些数据中挖掘文本的语义信息并进行分析是自然语言处理领域的重要研究方向。情感分析是文本分析任务的一个重要分支,它通过对文本中深层次的情感信息进行提取和分析,从而判断文本的情感极性。互联网中的大量用户评论数据为情感分析的研究提供了数据基础,对这些数据的分析不仅可以给用户提供可靠的参考信息,而且对相关从业人员提升产品的质量有着很高的参考价值。目前情感分析的研究,比较流行的方法是将文本序列进行词语表征后使用CNN、RNN等深度学习模型提取语义特征并进一步预测情感极性。这种方法缺乏从全局提取语义特征的能力,很难有效的提取文本深层次的情感信息。基于自注意力机制的Transformer模型能够更好的提取文本的全局语义特征,但其模型结构复杂,需要大量的训练数据。为了提高情感分析模型的性能,本文提出了基于Transformer的情感分析模型,并构建了自监督学习任务来解决训练数据不足时模型特征提取能力较差的问题。具体来说,本文的工作包括以下两点:第一,我们提出了情感分析模型TE-CNN、Bi-TE-CNN和Dual-TE-CNN,这三种模型基于Transformer编码器(Transformer Encoder,TE)进行特征提取并通过卷积变换得到文本表征来进行情感极性预测。其中,Bi-TE-CNN模型和Dual-TE-CNN模型分别在横向和纵向两个方面对TE-CNN模型进行了扩展,以从文本中提取更丰富的语义信息。第二,我们构建了一种基于语序的生成式自监督学习任务对Transformer进行预训练,该任务采用局部和全局两种规则将训练集中的文本顺序打乱以生成新的预训练数据集。在预训练完成后通过迁移学习的方式将Transformer编码器部分的参数共享到情感分析模型中,在情感数据集中对上层的网络进行训练。我们在基于豆瓣电影短评数据集构建的实验数据集上进行实验,采用直接训练和基于预训练两种方法训练上述模型,并与基线模型进行对比。实验结果表明,基于预训练的Transformer情感分析模型有着更好的特征提取能力,且性能均超过了基线模型,其中基于预训练的Dual-TE-CNN模型在各项指标都达到了最优。
其他文献
<正>2021年10月13日,由巴斯夫与马来西亚国家石油公司旗下子公司国油石化集团(PCG)合资成立的马来西亚巴斯夫国油化学(BPC)宣布,计划于2024年前将异辛酸(2-EHA)的产能从3万t/a扩大到6万t/a。巴斯夫亚太区中间体业务部全球高级副总裁华思梁(Vasilios Galanos)表示:"我们致力于满足客户随着异辛酸下游应用不断扩大而快速增长的需求,比如白色家电行业所需的合成润滑油,
期刊
期刊
政府治理工具的选择是技术操作问题,更是价值判断问题。在中国国家治理的制度情景下,何种治理工具或治理工具组合能够带来高水平的政府数据治理绩效?将治理工具视角引入政府数据治理绩效研究,采用模糊集定性比较分析方法,基于全国31个省级政府的案例,探讨政府数据治理绩效的生成路径与模式,得出生成高水平政府数据治理绩效的两种模式:政府深度参与模式和企社合作参与模式。与以往研究强调政企合作型治理工具的关键作用不同
为揭示红锥(Castanopsis hystrix)花芽分化期叶片生理及营养动态变化,以5年生红锥为试材,测定红锥不同花芽分化阶段叶片生理及营养含量。结果表明,可溶性蛋白、可溶性糖含量均在冬前和冬后花序原基分化期明显下降,在花簇苞片原基和花簇原基分化期上升。淀粉含量在冬前和冬后花序原基分化期呈上升趋势,在花簇苞片原基分化期下降,在花簇原基分化中、后期升至较高水平。SOD活性总体呈先下降后上升的趋势
<正>基于智能感知的无障碍移动服务体系用户体验案例基于智能感知的无障碍移动服务体系是重庆银行在疫情防控常态化及我国逐渐步入老龄化社会的大背景下,探索综合运用语音识别、语义理解、人脸识别、情绪及姿态识别等人工智能技术,结合5G技术和大数据技术,弥合“数字鸿沟”,提升适老化程度和无障碍服务能力的一次实践。截至2021年8月,通过巴狮数智移动银行新增老年客户逾1万人,
期刊
<正>在融媒体节目中,男女主持人搭配主持的形式已十分普遍,因此主持人之间的配合十分重要。若是配合得好,节目必是妙语连珠,精彩万分,可以得到广大受众的认可与好评;若是配合得不够好,不但会影响节目的正常进行,还会影响主持人专业水平的发挥,削弱融媒体节目的生命力。一、主持人搭档配合的三种形式(一)捧哏逗哏式在很多融媒体娱乐、生活、资讯类节目中,常常以男女主持人搭配的形式来呈现,比如早晚高峰节目、吃喝玩乐
期刊
对“阅读圈”的概念进行解析,结合教学实例提出“阅读圈”教学模式的理论依据,阐述在教学中运用该模式的具体操作流程,以增强学生的阅读体验感,提升学生的自主阅读能力和深度思考能力。
增强现实(Augmented Reality,AR)技术通过在真实环境中结合虚拟与真实的对象,实现虚实结合以增强人们对现实世界的感观。近年来,随着移动设备性能的快速提升,基于移动端的增强现实系统应用成为了当前的研究热点,广泛应用于众多领域。增强现实主要包括目标跟踪注册、虚实融合和人机交互三个关键技术,移动增强现实系统利用这些技术实现虚实融合,使得移动增强现实应用更加多元化,人们对AR应用的用户体验