基于用户标注文本的小样本情感分类方法

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:muzhou22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分类是自然语言处理领域的重要研究方向。早期的研究集中在词典和传统机器学习方法,这两种方法的性能分别受限于词典和特征工程的设计困难。因此,当前多数研究采用深度学习方法。然而,此类方法的准确度依赖于大量高质量的人工标注数据,数据标注工程代价昂贵。随着互联网的快速发展,网络用户产生了大量带标注的文本,这些易于获取的资源可以充当弱标注数据训练情感分类器。然而,弱标注数据中含有用户标注与文本真实情感倾向不一致的噪声数据,它们会对模型训练造成极大的危害。因此,无法直接在弱标注数据上对深度模型进行训练。尽管用户标注文本能够为深度学习提供新的数据来源,但大量优质标注数据的难以获取仍是限制模型性能的重要因素之一。因此,小样本学习方法变得尤为重要。当前多数研究旨在从原始文本中捕获更多的特征信息以实现模型在小样本场景下的性能提升,然而此类方法忽略了情感标签中隐含的指导信息。为了解决上述问题,本文首先提出了基于对比学习的弱监督抗噪声(Weakly supervised Anti-noise based on Contrastive Learning,WACL)情感分类框架WACL,旨在通过设计抗噪声策略来缓解噪声数据的负面影响,从而能够充分地利用海量用户标注数据,提升模型的情感分类性能。其次,本文提出了融入标签特征(Fusing Label Feature,FLF)的小样本情感分类框架FLF,该框架旨在通过设计标签特征学习方法来捕获情感标签中蕴含的特征信息,同时在小样本训练阶段将标签特征融入到模型的训练过程中,进一步提升模型在小样本情感分类场景下的性能。综上所述,本文的创新点如下:针对噪声数据会对模型训练造成危害的问题,本文提出了基于对比学习的弱监督抗噪声情感分类框架WACL。该框架具有三阶段:首先,在海量弱标注数据上采用对比学习策略进行预训练,该策略能指导模型学习情感类别间清晰的分布模式,并能极大地缓解噪声数据的负面影响。其次,设计了一种简单但有效的抗噪声策略Dropping-layer来移除模型受噪声数据影响较大的部分。最后,在剩余模型的顶层添加分类层,并使用人工标注数据对模型参数进行微调。本文在三个数据集上论证了WACL的有效性,大量实验结果表明WACL即使在噪声比例较大的场景下也能显著提升深度模型的性能。针对小样本场景下多数深度学习方法忽略了标签特征的问题,本文提出了一种融入标签特征的小样本情感分类框架FLF。该框架具有两个步骤:首先,在弱标注数据上基于提示学习和对比学习设计了一种多任务标签特征学习方案来训练标签特征生成器,该方案能够在抵抗噪声数据的同时显式地学习标签所蕴含的指导信息。最后,在训练情感分类器时,利用标签特征生成器将小规模训练样本的标签特征向量融入到训练过程中,进一步提升模型的小样本分类性能。本文在四个数据集上进行了多组实验,结果表明FLF在极小样本场景下的分类性能大幅超越其它同类方法,具备显著的优越性。
其他文献
雨天在户外场景中获得的图像质量受损严重,影响后续高级视觉任务(如目标检测、图像分割、图像识别等)的性能,因此单幅图像去雨作为预处理任务具有重要的研究价值。近年来,在单幅图像去雨任务中,基于深度学习的有监督算法表现出卓越的性能,尤其是对合成雨图的去雨。但对于真实雨图去雨的泛化性不强,一般归因于合成雨图像与真实雨图像之间存在域的鸿沟,导致在合成数据集上训练的有监督学习算法的泛化性能得不到保障。此外,在
学位
卫星通信系统在提供全球无缝覆盖方面具有不可替代的优势,已被视作未来通信网络的重要组成部分。近年来,学术界和产业界都大力推进陆地和卫星通信系统的有机融合,以期建成一个基于5G生态系统的全球网络架构。然而,两者在信道特性、系统架构等方面存在较大差异,使得融合系统构建面临着巨大的困难和挑战,尤其是一些空口关键技术问题仍有待解决,例如随机接入技术。考虑到卫星信道区别于陆地系统的大频偏、大时延、大损耗等特性
学位
在雨天场景中,雨纹会对采集到的背景图像造成严重的遮挡,导致图像信息模糊、背景能见度下降,从而进一步影响后续任务(目标检测、图像分割)的准确性。因此,单幅图像去雨任务是后续高级视觉任务的预处理步骤,通过去雨预处理操作,可进一步增强后续高级视觉任务的性能。基于数据驱动的深度学习图像去雨算法研究已经成为主流,而深度学习算法的性能主要依赖训练数据的质量和网络模型的设计。本文面向后续任务对预处理算法的部署和
学位
高光谱图像分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。高光谱图像涉及数百个不同的光谱带,在光谱信息丰富度方面比传统的全色和多光谱遥感图像更具有优势。然而,高光谱遥感图像具有数据量大、非线性和高复杂性等特点,这导致高光谱图像分类任务仍面临巨大挑战。近年来,基于深度学习的方法,尤其是神经网络,不仅具有强大的特征表示能力,而且具有很强的普适性,已经在高光谱图像分类任务上表现出卓越的性能。本
学位
在维护公众安全以及社会稳定的过程中,视频监控系统的作用十分重要,并且随着人们日益增长的高质量视频服务的需求,高清监控摄像头已经广泛应用于我们的日常生活中。随之而来的是大量的高清监控视频。但由于视频编辑软件功能的日益强大和深度篡改技术的发展,使得对监控视频的篡改变得越来越容易。因此,如何保证监控视频内容的真实性成为研究者们关注的重要问题。为了解决该问题,各种数字视频取证技术被广泛研究,其中,视频重压
学位
自5G商用以来,宽带无线通信技术持续快速发展,而频谱资源日趋紧张,传统通信频段已不能满足未来移动通信发展的需要。在B5G及6G系统中应用毫米波频段可以实现更快的数据速率、更大的系统容量、更高的可靠性和更低的时延等。但是毫米波面临路径损耗大,易受环境干扰,覆盖范围小等问题。尽管使用大规模多输入多输出(Massive MIMO)系统结合波束赋形(BF)技术能够有效克服毫米波通信的这部分缺陷,但也面临技
学位
作为数字图像处理的关键技术之一,无监督图像分割由于普适性强、无需人工事先标注图像等特点得到了广泛关注。在无监督图像分割领域,粗糙模糊C-均值聚类算法由于其效率高、原理简单等优势得到了广泛研究与应用。该算法将粗糙集与模糊集理论与聚类方法相结合,利用粗糙集中的上、下近似概念和模糊隶属度来处理数据中的不完备性与模糊性。然而,传统的粗糙模糊C-均值聚类算法具有对初始化敏感、容易陷入局部最优以及仅考虑一个聚
学位
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)作为雷达成像技术中最常用的手段之一,被广泛应用在各个领域,其中对PolSAR地物进行有效地分类是目前遥感领域的研究热点。近年来,随着深度学习的快速发展,其在解决PolSAR地物分类问题中也取得了优越的表现。PolSAR地物分类是一个小样本分类任务,传统的深度学习需要从大量标记样本中获取特征信
学位
聚类在图像分割领域有着重要且广泛的应用。基于聚类的图像分割就是根据灰度、颜色、纹理等特征把图像划分成若干个特定的、具有特殊涵义的不同区域的过程。多目标进化聚类图像分割是一类将多目标进化优化与聚类方法相结合的图像分割方法,其可以有效地缓解传统聚类算法对初始聚类中心敏感、容易陷入局部最优以及聚类准则单一的问题。然而,在解决复杂图像分割问题的过程中,传统的多目标进化聚类算法通常直接搜索问题的完整Pare
学位
与传统平面电磁波相比,携带轨道角动量(Orbital Angular Momentum,OAM)的涡旋电磁波是一种独特的波束,具有螺旋相位结构和环形幅度场。由于OAM模式的无穷性和不同模式间的正交性,提供了一种独立于时域、频域和极化域的全新自由度。在信道扩容和提升频谱效率方面,OAM波具有极大的潜力。随着OAM技术的不断发展,如何利用结构紧凑、低成本的方案产生宽带高效率的多模OAM波束,已成为亟待
学位