基于弱监督多任务学习的方面级情感分析方法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:storm369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
方面级情感分析技术是自然语言处理领域的挑战性研究课题。多数深度学习方法的性能依赖于大规模人工标注数据集,但标注大量的高质量数据集是一项耗时费力的工作,因此有标注数据集的缺乏已成为制约深度情感分类算法的瓶颈问题。幸运的是,不同网络平台用户生成了大量带标签的舆情文本(如带评分的商品评论和电影评论,带表情符号的推特评论等),这些文本可以作为弱标注数据集被用于情感分类任务。然而,弱标注数据中存在着标签与文本实际情感语义不一致的噪声数据,会对训练过程产生严重的负面影响,因此无法直接当作强标注数据用于训练深度模型。此外,多数弱标注评论文本没有清晰地指明所描述的方面词,缺乏方面信息指导的模型无法有效学习到评论文本的细粒度情感特征。为了应对上述问题,本文首先提出了基于无监督注意力模型(Unsupervised Attention Model,UAM)的方面提取框架UAM-BERT,旨在通过无监督方法识别无标注数据中的方面词,从而摆脱对人工标注数据的依赖。以UAM-BERT方法为基础,本文通过引入伪标签生成思想,进而拓展出了一套基于弱监督多任务学习(Weakly supervised Multi-task Learning,WML)的方面级情感分类框架WML。WML是一个统一的多任务学习框架,主要面向小样本场景,采用的多任务训练目标能够同时对方面提取和方面级情感分类任务进行联合优化。方面提取作为辅助任务,能够为主训练任务(即方面级情感分类)提供丰富的上下文信息,进而指导模型学习到输入文本在特定方面词下的细粒度情感特征。综上,本文的创新点如下:第一,针对弱标注数据缺乏方面词标签的问题,本文提出了无监督的方面提取框架UAM-BERT。UAM-BERT从词级别上对输入文本进行建模,采用注意力机制促使模型有效捕获输入文本中最为相关的方面词特征,并引入特征重构思想指导模型学习出能够真实反映数据中方面词分布的注意力权重向量。在3个真实数据集上的实验结果证明了UAM-BERT方法的优越性,即使在其他领域数据集上也同样具备良好的推广能力。第二,WML框架灵活且具备通用性,可兼容不同结构的深度语言模型(如CNN,Bi LSTM,BERT)。本文为WML中的弱监督情感分类模块设计了基于迁移学习(Transfer Learning,TL)的方面级情感分类框架TL-BERT。TL-BERT以弱标注数据为研究对象,采用“预训练再微调”的迁移学习范式。在预训练阶段,本文改进了对比损失函数的形式,能够指导深度模型更好地学习海量弱标注数据中丰富的类间与类内对比模式。此外,对非同类样本的多次采样使得噪声数据被自然地稀释,从而最大限度地降低弱标注数据中噪声数据造成的负面影响。在微调阶段,设计了一种用于小样本场景的多任务目标函数,通过有监督对比学习项来继承预训练模型的知识。本文在5个真实数据集上证明了所提出方法的有效性,在仅使用0.5%(即32个样本)比例的有标注数据集进行微调的情况下,TL-BERT方法的性能依然超出其它深度方法。
其他文献
报纸
<正>近日,云南省纪委监委推出的警示教育片《开尔行贿记》,深入剖析了昆明开尔科技有限公司(以下简称"开尔公司")以巨额行贿"围猎"公职人员的典型案例,引发社会广泛关注。2010年起,开尔公司通过"围猎"公职人员攫取不当利益,短短几年间业务覆盖云南省16个州市,在11个州市成立分公司,年营销额达2亿元。该案共涉及105名国家公职人员,行贿金额高达1300余万元,造成恶劣影响。
期刊
自从2012年深度学习技术爆发以来,目标检测领域随之也取得了巨大的进步,基于深度学习技术的目标检测算法层出不穷,检测精度越来越高且速度满足实时性要求,同时检测算法的种类变得多样化。本文为探究新分支Anchor Free中的算法对可见光图像和红外图像的检测性能,选取了该领域具有代表性的算法CenterNet作为基准算法,该算法思想巧妙、性能良好且网络结构简洁,发表后引起众多研究人员对其进行优化和应用
学位
区块链是信息技术领域的一个新术语,它通过运行一个一致协议来维护共享的账本,以保护区块链上的数据具有不可伪造、公开透明和集体维护等特征。目前,区块链技术创造了可靠的合作机制,并被越来越多的学者和业界人员所关注。以太坊作为最受欢迎的区块链平台,使得开发者可以通过智能合约来执行相关工作。Solidity是最流行的智能合约开发语言,随着Solidity语言的不断进化,编译器版本也随之更新,不同的编译器版本
学位
高校思想政治教育与意识形态安全具有密切的关系,在大数据时代,网络新媒体技术的发展和普及使高校意识形态安全面临着新的挑战,对高校思想政治教育提出了新的要求。面对大数据时代带来的机遇和挑战,如何发挥好大数据的作用,做好意识形态安全工作,是摆在高校思想政治教育工作者面前的一个重要课题。在思想政治教育中充分利用大数据技术,加强高校思想政治教育工作是应对挑战、提高工作效能的必然选择。本文以大数据时代高校意识
期刊
卫星通信凭借其覆盖范围广、稳定性高、抗毁性强、不受地理因素影响等优势,被认为是下一代全球通信网络中不可缺少的重要组成部分。利用卫星通信系统构建天基物联网,使之成为地面物联网的补充和延伸,从而能够在真正意义上实现万物互联。然而,现有的卫星通信系统主要面向人与人(Human-to-Human,H2H)业务,难以满足卫星机器间(Machine-to-Machine,M2M)通信中成百上千万甚至上亿设备的
学位
从观念和制度上真正落实“受贿行贿一起查”,是改变贿赂犯罪治理不力的治本之策。无论从贿赂犯罪生成机理的理论视角还是从查处贿赂犯罪的实证视角,也无论是国内反腐的需要还是中国企业走出去防范刑事风险的需要,以及对《联合国反腐败公约》和域外立法的分析,都能证成“受贿行贿一起查”这个命题。为此,一方面,要在执法司法层面树立行贿受贿并重惩处的理念,强化办案水平,贯彻宽严相济的刑事政策,做好行贿犯罪定罪处刑的“后
期刊
视觉目标跟踪一直是计算机视觉领域研究的关键课题之一,已经在智能交通系统、智能监控系统、人机交互、无人机以及机器人技术等多种人工智能场景中具有广泛应用。目标跟踪算法旨在利用给定的初始信息对目标外观进行建模,在后续图像序列中克服目标遮挡、快速运动、光照变化等复杂因素的干扰,最终实现对目标位置和大小的有效推理。对于仅有的目标初始外观信息,以何种方式对其进行充分而有效的挖掘对目标跟踪算法性能的提高至关重要
学位
随着数字图像处理技术快速发展,边缘保持滤波算法被广泛应用于交通、医学影像、航空、军事等应用领域中。由于复杂自然环境的影响,使得采集到的图像容易出现内容模糊的现象。因此需要对其进行预处理以提高图像质量。许多图像处理和计算机视觉任务需要提取图像和视频中的特征和结构信息。但在预滤波处理过程中,常规滤波处理容易导致图像模糊且部分结构信息丢失,其在消除图像噪声的同时无法保留图像的边缘细节信息,如方框滤波、高
学位
现代科技的进步与传感器技术的发展不断驱使着目标跟踪场景的复杂化,与实际复杂环境更适配的群目标跟踪在近些年成为业内学者重点关注的问题。群目标由运动较相似且在一定距离内的多目标组成,高斯混合概率假设密度(Gaussian Mixture Probability Hypothesis Density,GM-PHD)滤波是多目标跟踪中的主流算法,因此群目标的研究大多是对GM-PHD算法进行改进,但此类算法
学位