基于自注意力融合网络的属性类别级情感分析关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wan801130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性类别级情感分析(Aspect Category Sentiment Analysis,ACSA)是从非结构化文本数据中针对各个属性类别分析其各自蕴含的情感倾向。相比于通过对评论文本进行传统的情感分析,属性类别级情感分析能够使得公司更深入、更细致地了解评论的细节信息,了解用户针对具体对象的情感倾向。然而,现有的相关模型在建模时未能很好地将文本语句与所对应的属性类别进行深度融合,这对于属性类别级情感分析任务是极其重要的。完成属性类别级情感分析任务,首先需要在用户评论文本中识别出待分析的属性类别,该项工作即为属性类别识别任务(Aspect Category Detection,ACD),其可定义为多标签文本分类任务。在该任务中,极易产生标签类别不平衡问题,即样本数据的目标标签类别的个数比非目标标签类别少得多。现有的大多数深度学习方法均需基于干净的有标签的数据集,然而现实中人工标注的数据集不可避免地会存在一定量的噪声标签。噪声标签是指在监督学习中,某些样本上被分配了错误的标签类别。本文主要采用的数据集涉及多标签分类任务,现有的针对噪声标签检测的研究工作,大多均不会特别考虑多标签分类任务数据集的特殊性。本文面向噪声标签检测任务、属性类别识别任务以及属性类别级情感分析任务三个任务所面临的问题与挑战,做出了如下贡献:(1)提出了多标签文本分类场景下的噪声标签检测算法——Multi-Label Text Underfitting to Overfitting Networks(MLTU2-ONET)。该算法采用BERT(Bidirectional Encoder Representation from Transformers)预训练模型作为训练模型,并在训练过程中记录模型每一轮次每个数据样本的每个标签类别的损失值,并将这些损失值进行标准化处理。其中标准化损失值之和越大的数据样本对应的标签类别,为噪声标签的概率越高。MLTU2-ONET在来自BDCI 2018的公开中文数据集“汽车行业用户观点主题数据集”上进行了实验验证,取得了较好的效果。并利用该算法修正了汽车制造商提供的“汽车论坛评论文本数据集”中针对属性类别识别任务的噪声标签。(2)提出了名为Multi-Label Circle Loss BERT(MLCLB)的多标签文本分类算法,以解决属性类别识别任务。该算法采用BERT预训练模型作为训练模型,并采用了已有的某个统一损失函数的针对多标签分类任务的形式作为损失函数。该算法在经修正噪声标签后的“汽车论坛评论文本数据集”上进行实验,实验结果有力地证明了MLCLB的有效性。(3)聚焦于对文本语句与所对应的属性类别的深度融合,提出了属性类别级情感分析模型——自注意力融合网络(SelfAttention Fusion Networks,SAFN)。该模型首先应用多头自注意力机制以分别获取语句和属性类别各自的注意力特征表示。然后,采用多头注意力机制将语句以及属性类别的注意力特征表示进行深度融合。最后,采用卷积神经网络提取更有价值的特征信息。实验在中文数据集“汽车论坛评论文本数据集”以及公开英文数据集Laptop-2015(Sem Eval2015 Task 12)上进行,实验结果有力地证明了SAFN的有效性。
其他文献
“万物互联”概念的提出,推动着智慧城市与智能家居等各个智能场景下科技的发展,多场景应用无缝体验成为智慧生活的基石。智能设备无法直接观测相关因素,而是通过网络通信等手段感知环境变化和用户需求,在不确定的条件下进行决策。在现实生活中,也普遍存在不确定性问题,这使得我们需要运用先决条件知识和演绎推理并结合不确定性数据进行推断,预估事件发生的可能性。概率是表示不精确和不完备知识的重要工具,概率编程是在不确
构音障碍是指发音障碍人群由于对构音器官的控制失常,造成发音含糊、缓慢的情况。近年来,自动语音识别(Automatic Speech Recognition,ASR)技术取得了长足的进步,引起了各个领域的关注。尽管ASR在各种场景中取得了成功,但为音障患者建立音障语音识别(Dysarthric Speech Recognition,DSR)系统仍然是一项艰巨的任务,其困难表现在:音障患者与正常人的发
能源是推动人类社会文明发展与进步所需要的重要资源。其中,太阳能作为“取之不尽,用之不竭”的清洁能源受到了研究人员的广泛关注。近年来,有机-无机杂化钙钛矿太阳能电池因其成本低和转换效率较高成为研究的热点。有机-无机杂化钙钛矿太阳能电池发展了短短的十几年时间,光电转换效率就突破25%,紧追单晶硅太阳能电池,但其稳定性问题是实现商业化的主要瓶颈。为了提高钙钛矿太阳能电池的稳定性,需要从制备器件的材料,结
超强超短脉冲激光的出现,催生了一门新兴的学科一强场物理。在超强激光场中,微扰理论不再适用原子与激光相互作用的研究,需要引入新的非微扰理论,比如:高频弗洛凯理论。处在强激光场中的原子分子会表现出一个很有趣的现象:随着激光强度的不断增强,原子的电离率反而出现了下降。这种全新的现象称之为“原子稳定”。高频弗洛凯理论(HFFT:High Frequency Floquet Theory)阐明,在高频近似条
随着技术的发展,医学的数字化和信息化的发展也在不同程度上呈现出上升趋势。同时电子医疗比起传统医疗的优势也更加明显,其中电子健康系统就是电子医疗中最具有代表性的系统。然而如今在这个大数据的共享时代里,用户更为关心的是在使用系统过程中存在的隐私安全问题。为此,研究者们对于解决这些问题也提出了很多自己的观点和想法,而这其中属性基加密是大家普遍认可的一种较为可靠和安全的加密方法,同时属性基加密的出现也对解
针对工业控制系统(Industrial Control Systems,ICSs)的网络威胁的频率和复杂程度与日俱增。工控网络协议(Industrial Control Protocol,ICP)是进行工控网络通信的基石,因此保证工控网络协议的安全性对工控系统的重要性不言而喻。研究人员们也日渐认识到,在不考虑工控网络协议的安全性的情况下,如何确保工业控制系统的安全性更无从谈起。但工控网络协议所应用
钍基材料相比于传统的铀有着更丰富的储量、更优秀的防扩散性能、更高的能量密度和更少的核废料产出,可以替代铀作为核燃料,是解决长期能源供应的一种技术方案。在钍基材料中,钍基氮化物凭借着高可裂变物质密度、高熔点、优秀抗辐照性能等优点,成为第四代核反应堆的具有应用前景的核燃料之一。ThN、Th3N4和Th2N3都是第四代核反应堆的重要候选燃料,其中科学家们已经对ThN进行了较深入的研究,而Th3N4和Th
为满足现代化工业需求,零部件的质量要求逐渐提高,高效率和高精度零部件的生产是目前急需解决的工程问题。所有旋转零部件都需要动平衡校正,平衡校正的结果成为零部件质量评估重要指标之一。在传统柴油机飞轮的动平衡校正过程中,使用键对飞轮定位,长时间使用的键和键槽容易磨损,出现飞轮定位不准确的现象,导致飞轮动平衡去重区域的识别不精确;再者有些类型的柴油机飞轮的键槽位置是任意的,键对飞轮的固定位置也是任意的,和
近几年,双线性配对技术被广泛应用于密码学的多个领域,许多基于双线性配对技术构造的加密和签名方案被提出。尽管这几年在实现技术上有了新的进展,但与有限域中的指数等标准运算相比,配对运算仍然被认为是一种相当昂贵的运算,不适用于代理重加密,数据聚合签名等众多用户计算资源有限的场景中。因此,为了节省计算开销,如何构造不依赖于配对的轻量级路径代理重加密方案和数据聚合签名方案是值得研究的问题。本文主要工作包括以
随着数据规模和计算复杂度的不断增加,在云计算环境中执行现代工作流应用会涉及大量不同类型和价格的云资源。这使得云工作流调度的成本成为人们关注的焦点。另一方面,由于云数据中心的能耗也在日益增加,云工作流调度的能耗也成为了学界和业界关注的问题。为了向用户提供成本更低的工作流调度服务同时降低云数据中心的能耗,基于性能的定价方案应运而生:云服务提供商可基于动态电压/频率调节(Dynamic Voltage