基于对比学习与双分支网络的引文意图分类研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:chen17983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文献在学术交流的过程中发挥着重要的作用,研究者需要通过阅读文献了解研究成果、学习研究方法、发现存在问题。在过去,文献被引频次是最重要的学术影响力评价标准之一,研究者一直利用该评价标准作为参考来筛选文献。然而一篇文献的被引用数受很多因素的影响,例如是否有大量的研究者关注同一个研究课题,所以不能简单的利用文献被引频次来筛选文献。为了找到更加准确的文献计量方法来评估学术成果,越来越多的研究者开始关注引文意图分类任务。引文意图分类任务是将一篇文献总的被引频次划分成不同意图类别的引用次数,了解他人引用该篇文献的目的,有助于研究者进一步筛选文献。此外,分析作者引用文献的动机对于开发新的评价学术影响力的方法有着重要的研究意义。已经有许多引文意图分类的研究,这些研究都是考虑如何获得更好的数据表示特征从而提高模型的性能。本文在研究过程中发现现有的研究并未考虑以下两个问题,其一是引文意图类别不平衡问题,其二是少量的标注数据限制模型分类性能的问题。引文意图类别不平衡问题是指引文数据中超过一半的样本都属于同一个类别,剩余的样本属于其他的类别。引文意图类别不平衡问题会导致训练好的模型在样本数少的类别上的性能下降。关于第二个问题,深度学习通常需要利用大量的标注数据训练模型从而获得较好的性能,然而标注引文意图分类数据的代价很高,难以获得大量的数据,会严重影响模型的分类性能。本文围绕上述的两个问题展开研究,针对两个问题提出了相应的解决办法,具体如下:(1)本文创新性地将多任务学习与双边分支网络相结合,提出了基于多任务的双边分支网络MBBN(Multi-task based Bilateral-Branching Network)缓解引文意图类别不平衡问题。针对不平衡,计算视觉领域中提出了一个包含共享编码层和非共享编码层的双分支网络用于解决不平衡问题。受此启发,本文构建了能够解决引文意图类别不平衡问题的双分支网络,考虑到预训练模型能够利用先验知识生成更好的表示特征,已经被广泛应用于下游任务提升模型的性能,所以本文将预训练模型作为共享编码层。由于注意力机制能够让网络关注文本中的重要信息,所以将单词注意力层作为非共享编码层。为了让模型学到额外的信息,本文采用多任务学习方法,引入了一个判断引文所在章节名的辅助任务。在实现多任务学习方法的过程中,需要解决的一个问题是如何将多任务学习与双边分支网络结合。因为双分支网络的一个分支是用于表示学习,而另一个分支是用于分类学习,所以本文将多任务学习与双边分支网络的表示学习分支相结合。在具体的实现结合方式中,本文采用最常用的硬参数共享方式。(2)本文创新性地将CNN网络和有监督对比学习与双分支网络模型相结合,提出了结合CNN网络和有监督对比学习的双边分支网络BBNSCL(BilateralBranching Network with Supervised Contrastive Learning)缓解少量的标注数据对模型性能的限制。在有监督对比学习中需要为每个样本生成负样本和正样本。本文采用其他类别的样本作为负样本,这样能够使得网络在不同类别的样本间有更好的决策边界。此外,本文将样本输入到网络中两次,利用Dropout机制来生成正样本。由于Dropout机制的实现方式简单,并且对句子语义信息的扰动是微小的,更有助于模型学习到同一个类别样本的共性特征。为了能够捕捉到更加丰富的语义信息,本文在网络的非共享编码层添加了一个CNN网络。CNN网络采用三个不同尺寸大小的卷积核捕捉不同程度的语义信息,并且这些语义信息之间还可以相互补充。(3)为了验证本文提出模型的性能,本文在两个引文意图数据集上进行实验。本文提出的第一个模型MBBN模型在ACT数据集上的F1得分为0.25972,在ACL-ARC数据集上的F1得分为70.9,实验结果表明MBBN模型在引文意图类别不平衡的情况下性能优于其他模型。第二个模型BBNSCL在ACT数据集上的F1得分为0.27452,在ACL-ARC数据集上F1得分为72.4,实验结果表明BBCSCL能在少量的标注数据情况下进一步提升模型性能,并且性能优于其他模型。
其他文献
为了解决飞机飞行过程中机翼结冰带来的问题,学者们提出了一类欧拉液滴模型.本文主要对一维欧拉液滴模型解的性质进行定性研究.本文的第一章给出我们所要研究问题的研究背景、研究现状和预备知识.在第二章中,我们证明了一维欧拉液滴模型的解在Besov空间中的局部适定性.首先利用输运方程理论和Littlewood-Paley分解证明一维欧拉液滴模型的解是唯一的,且连续依赖于初值.接着,通过迭代法构造近似方程组,
学位
随着现代科学的发展以及学科之间的相互渗透,模糊数学的应用愈发广泛,在金融中的作用也逐渐显现.由于受到市场的供给和需求、财政收支、经济政策、货币供应、物价等不确定因素的影响,使得金融活动中的无风险利率、股票价格等数量存在不确定性.在金融活动中,很多时候不仅要考虑某一事件是否会发生,而且会涉及一些没有明确边界的数量.比如,在二叉树期权定价模型中,股票在下一时刻的价格通常只是预测数值,是对未来的一种粗略
学位
降低出生缺陷、提高人口质量是事关人口素质的大事,孕妇围产期的监护至关重要。胎心宫缩监护(Cardiotocography,CTG)是临床评估胎儿健康状况的主流监测手段,主要依靠医生判读纸质胎心率(Fetal Heart Rate,FHR)记录图形给出诊断结果,准确性依赖于医生的临床经验和能力水平,普遍存在准确度与一致性不理想等问题,胎心率信号的智能分析技术在临床上具有重要的应用前景。本文研究孕晚期
学位
随着城市化进程的不断发展,传统的监控设备由于其过度依赖人工、效率低下等问题已满足不了当下社会的需求,因此智能监控技术成为了当今的一个热门研究方向,而人群异常行为检测作为这一领域内的主要分支技术,也引起了许多国内外研究者的重视。当前已经有许多人群异常检测技术相关算法被提出,现有的多数方法都是通过将图像分割成均匀区域块的方式来提取特征,但是这种方式会破坏行人个体的完整性,从而降低异常行为检测定位的准确
学位
基于混沌的通信技术由于其在安全通信中的潜在应用而受到广泛的关注。混沌所表现出的复杂特性,如连续的宽频谱,天然的类随机性,长期不可预测性等,为其在保密通信方面的应用奠定了基础。如今,在光通信系统中,混沌信号已被用于加密和解密信息以提供安全性。与电混沌相比,半导体激光器产生的光学混沌具有更宽的带宽与复杂吸引子。激光混沌所具有的内在伪随机特性使得预测和重建动力学的过程变得非常困难。激光混沌对初始参数的极
学位
细分造型方法适用于任意拓扑结构的多边形网格,被广泛应用于动漫、游戏等几何造型领域,具有一定的研究价值。本文主要围绕计算机辅助几何设计(Computer Aided Geometric Design,CAGD)中的细分造型方法展开研究,并基于Coons曲面提出一种适用于任意拓扑四边形网格的插值细分方法。首先,介绍细分造型方法相关的理论知识及经典的细分方法,对这些细分方法进行比较、复现,并总结它们的相
学位
如今含有噪声的多智能体系统的一致性吸引了越来越多的注意,除了设计噪声一致性协议让系统达到一致性问题外,还聚焦在网络的拓扑结构与一致性的相互作用。在问题设置背景下,噪声网络的一致性是由网络的拉普拉斯矩阵的特征值所决定。由于网络拓扑结构的复杂性,解析计算矩阵的特征值面临着技术挑战。本文选取一类环树状网络作为研究对象,它的优点是能够解析分析网络的拓扑结构属性对一致性的影响,利用网络规则的拓扑结构,计算得
学位
雷达有源欺骗干扰通过在真实目标附近产生与其在时频域、空域和极化域中均具有类似特征的假目标,来实现影响雷达工作性能,使其无法准确探测目标的目的,是电子对抗(Electronic Countermeasure,ECM)重要的干扰手段之一。为了尽可能地摆脱来自有源欺骗干扰的威胁,保障雷达正常工作,本文深入研究了典型欺骗干扰产生机理,阐述了雷达抗有源欺骗干扰的研究背景、意义和研究现状,总结了欺骗干扰识别技
学位
广义重心坐标能把多边形或多面体内任意一点表示为其顶点的线性组合,因此在计算机辅助几何设计(Computer Aided Geometric Design,CAGD)和计算机图形学(Computer Graphics,CG)等领域都是重要的研究课题。本文用渐进逼近的思想构造广义重心坐标。在平面上,给定多边形及其内一点,首先将多边形投影到以该点为圆心的单位圆上,依次连接投影到同一圆上的各边的中点,形成
学位
随着国家、企业和个人对网络信息安全的高度重视,以生物特征信息为依据的识别技术在各个领域得以广泛应用。相比于指纹、人脸等常见的生物特征识别技术,心电(Electrocardiogram,ECG)信号具备“活体”识别的高防伪性,基于心电信号的身份识别技术在一定程度上确保了身份识别系统对外来侵入的高度抵抗力,具有较大的发展潜力。本文结合信号处理和人工智能算法,从单导联心电信号的质量评估、信号去噪、基于特
学位