面向样本稀疏领域的中文关系知识获取研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:youngpansy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种重要的存储结构化数据的技术,它可以为多种信息化应用提供知识支持,例如推荐系统、问答系统等。知识图谱自动构建技术的研究在通用文本上开展的如火如荼,而在特定领域上则鲜有人问津。但对于医学、经济、军事等领域,专业的知识图谱是推动其领域信息化发展的关键因素。特定领域的标注文本往往是稀疏的,因此,本文立足于样本稀疏领域这一出发点,对知识图谱自动构建的问题展开研究。知识图谱中结构化知识的一个重要来源是非结构化文本。一般采用信息抽取技术可以从非结构化文本中提取结构化的数据,用于知识图谱的自动扩充。而关系知识获取,即关系抽取,是信息抽取技术的一个重要子任务。它根据文本的上下文描述,确定提及实体对之间的语义关系,从而形成结构化的三元组数据,用于构建知识图谱。本文研究侧重于样本稀疏领域的关系知识获取技术,并解决数据稀疏性、文本多样性、关系动态性以及数据含噪等问题。具体地,本文依次提出三个模型来解决不同设定下的稀疏样本下的关系知识获取问题。首先在稀疏含噪样本条件下,提出了互补卷积神经网络模型com-CNN,利用了监督学习的方法训练多分类器,对实体之间的语义关系进行预测。针对样本稀疏问题,设计了多重依存路径进行特征增强,并结合实体信息解决特征稀疏问题。针对样本含噪问题,通过多重依存路径进行词级降噪,并利用互补卷积神经网络捕获多重依存路径和原始单词序列的互补信息,此外,实体集成的注意力机制可以抑制错误标注实例的负面影响,进行实例级降噪。通过对稀疏性和含噪问题的解决,模型com-CNN可以更准确地为领域文本进行关系预测。不过,在该问题设定下,长尾关系不能很好地被分类,且仅涉及有限个关系类别,无法在预测时适应新关系。因此,进一步将关系抽取问题定义到少次学习框架下,抽取长尾关系类别。对于少次设定下的关系抽取方法,本文提出了少次关系分类模型BACK。在少次学习设定中,对于每个测试的新关系类别仅给定少量的标注数据,即支持数据,模型通过对支持数据的快速学习,获得对未标注数据的关系预测能力。对于少次关系分类模型,支持实例与查询之间的交互可以捕获二者之间的相似部分,进一步为关系类型的识别提供重要线索。此外,在向量空间中,相同类别的实例应该相互靠近,而不同类别的实例应该相互远离。因此,模型BACK通过双向注意力机制建模了支持实例和查询之间的交互,并加入边界距离损失监督实例向量在特征空间的分布,充分利用类别内和跨类别的潜在知识。与现有的方法相比,模型BACK在少次关系分类任务上获得了最好的效果。少次关系分类模型虽然对预测关系类别仅需要少量标注数据,但训练一个性能优异的少次关系分类模型依然需要一定量标注数据。因此,下一步的研究将远程监督与少次学习框架结合,利用自动生成的弱标注数据训练少次关系分类模型。远程监督可以通过将现有知识图谱与文本自动对齐的方式快速生成大量弱标注数据,但这样的训练数据存在错误标注的情况,也称为噪声数据。在以往的少次关系分类模型中,采样单个实例作为查询对模型进行训练。当利用远程监督数据训练时,一旦采样到错误标注实例作为查询时,会对模型的优化产生负面影响。因此,本部分的研究采用远程监督的至少一次假设,利用描述同一个实体对的全部实例,即实例袋,作为查询。基于这一设定,在原型网络基础上,提出了基于注意力的多实例学习方法AMProto对查询集和支持集两个层次上进行实例级去噪。该研究也是对远程监督和少次学习两种范式结合的初步探索,实验结果显示出该任务的可行性以及模型AMProto的优越性。总而言之,本文研究了在不同稀疏样本设定下的关系知识获取问题,依次提出了三个关系抽取模型。对于每一个模型,本文进行了充分的定量分析和定性分析实验,实验结果证明了模型的有效性和合理性。这些模型可以很好地获取领域关系知识,用于领域知识图谱构建,进而为领域信息化服务提供支持。
其他文献
人工智能模型的训练依赖于大规模高质量的标注数据。通过人工标注的方式可以获取高质量的训练集,但是人工标注效率很低并且代价高昂,尤其对于标注难度较大的文本语料,人工标注很难获取大规模的标注数据。远程监督可以用来自动构建大规模的标注数据集,然而通过远程监督得到的训练集质量并不高,训练集的质量决定着模型的上限,因此如何优化远程监督数据集已经成为当下研究的热点。远程监督在不同场景下面临着不同的问题,其解决方
学位
针对永磁同步电机在弱磁运行过程中因参数变化导致的控制性能下降问题,提出了一种采用单q轴电流调节器的多参数自适应补偿控制策略,以提高电机在弱磁区域内的转矩控制精度。实验结果表明该方法对参数的辨识误差在5%以下,输出转矩与期望转矩的误差小于1%,该方法能有效地抑制多参数变化对电机性能的影响。
期刊
随着无线传能技术的快速发展和无人机在各个领域的广泛应用,利用微波无线传能为飞行中的无人机提供能量保障已成为延长无人机工作时间的有效途径。考虑到微波点对点直接传能在无人机供电方面存在局限性,本文针对面向无人机供电的微波无线传能链路进行建模与优化研究以在一定程度上提高无人机微波无线供电的环境适应性、传输效率和实际应用价值。首先,本文对微波无线电能传输技术原理及其在无人机供电上的应用进行分析,针对面向无
学位
面部表情是人类情感信息传达的重要载体,在人们的沟通交流中发挥着重要作用。随着人工智能的迅速发展,让机器理解人类的情感具有重要的研究意义和实际应用价值。依托课题组视频动作识别与智能分析项目,本文研究基于卷积神经网络的人脸表情识别方法,并应用于课堂教学表情识别系统,协助教师对学生学习状态进行实时了解和事后分析,从而帮助提升教师教学质量。本文的主要研究内容如下:(1)针对轻量级网络Mobile Net
学位
近些年,无人机的广泛应用对空域资源提出了更多的需求,无人机的运行空间将逐步由隔离空域向融合空域扩展,保证飞行安全是将无人机集成到国家空域管理系统的前提。感知与规避(Sense and Avoid,SAA)是实现无人机自主飞行安全的关键技术,设计无人机感知与规避系统时,如何配置和融合使用感知传感器是无人机实现空域信息获取的重要环节。本文首先研究了针对不同任务环境的无人机SAA系统的感知传感器配置算法
学位
人们在浏览电商网站或购物软件上的服装产品时,往往会产生多样化的检索需求,如希望找到在某些服装属性上与查询图片相似的服装,以及希望改变查询图像某一服装属性而保持其它服装属性不变的需求,即服装属性操作,这些需求即为细粒度服装图像检索,当前的搜索引擎对这些需求还无法很好的满足。针对以上的检索需求,需要提取图像与服装特定属性准确相关的特征,深度学习的发展使得这一操作成为可能,本文基于深度学习理论深入研究了
学位
关系抽取意在抽取文本中实体对的关系,对于知识图谱的构建起着重要作用,是自然语言处理中重要任务之一。关系抽取面临着诸多挑战,尤其是复杂语境和学习能力带来的文档级关系抽取以及少样本关系抽取问题。本文重点研究了针对上面两个问题现阶段的工作以及存在的不足并进行了相应的改进。我们发现以下几个不可忽视的问题:1)现阶段的文档级关系抽取模型一般只从单方面捕获信息;2)文档级关系抽取模型或者是依赖于外部解析器构造
学位
针对城市轨道交通X射线安检危险品识别,在YOLOv5m基础上,增加了CBAM注意力,分别对通道和空间的特征进行操作。经过实验验证,该方法的mAP50:95、mAP50分别提升了0.6和1个百分点,结果表明改进后的算法能显著提高检测精度。
期刊
近年来,在三维视觉感知技术的推动下,新型智能机器人逐渐具备了越来越强大的感知和交互能力。基于视觉感知的机器人抓取技术主要分为已知目标物体模型的抓取和未知目标物体模型的抓取。对于未知目标物体模型的视觉抓取,抓取算法需要尽可能地感知物体的完整信息。然而,受到物体遮挡和扫描误差的影响,单帧RGB-D图像中包含的物体信息往往不够完整并且存在一定的噪声,这给机器人的精准抓取带来了一定的挑战。而对于模型已知的
学位
随着互联网时代的发展,软件技术的应用越来越普遍,对相应软件的漏洞检测要求高效、准确。然而,软件漏洞是多种多样的,通过源代码检测漏洞对开发人员的专业经验要求很高。以往的漏洞检测方案要么依赖专家定义的特征,要么只对代码序列使用递归神经网络,很难在传统的代码空间中提取复杂的漏洞特征。近年来,随着人工智能技术的蓬勃发展,一些学者开始尝试提取源代码的抽象表示图,结合图神经网络用于软件漏洞检测,但目前此类研究
学位