基于中文层次性数据的动静态知识图谱补全研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:fengyes888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱补全任务是自然语言处理领域中的一个重要环节,作为抽取的下游任务,以及推理和加工的上游任务,起到承上启下的关键作用。目前的知识图谱补全取得了一定的进展,但是对于数据集中层次性数据的分析效果难以达到知识图谱构建的要求。本文从中文数据集入手,通过分析数据集的层次性,提出一种构建层次结构的中文数据集的方法,改进了静态补全模型,同时为动态的补全模型引入时间信息,实现了知识图谱补全。本文的主要研究内容如下:(1)提出基于数据集多种耦合关系层次性的中文数据子集构建方法。以现有的开源英文数据集为基础,通过数据集结构层次分析发现,现有的开源英文数据集存在着两大问题:一是数据集内存在大量无意义的三元组,这些三元组数据的存在会变相提高模型测试时的精度;二是数据集内存在着三元组数据量不均衡的问题。根据上述两种问题,本文提出四种耦合性的关系,用这四种耦合关系来表示数据集整体的层次性,并提出一种数据子集构建的方法,该方法基于两种衡量数据层次性的指标,对上述四种耦合关系有很好的提取效果,构建了两个中文数据子集。实验结果表明,中文数据子集在模型上的效果要优于现有的开源英文数据集。同时,通过改进构建的中文数据集中的最大数据差异量,然后再在模型上测试,得出了数据差异量越大,模型效果越差的结论。(2)提出基于空间旋转和反射参数协同的耦合关系识别模型。对于静态的知识图谱补全任务,通过分析现有模型处理数据方法,发现模型并没有很好的提取四种耦合关系。因此本文在ATT模型的基础上,引入空间旋转参数和反射参数,让旋转参数和反射参数分别对相应的耦合关系进行空间映射,使得模型能够先对层次性的耦合关系有一定识别能力,然后再通过双曲-正切空间进行空间映射,获取空间上关系的语义和分布。然后将改进后的ATTm模型与现有模型进行比较,分别在开源英文数据集和构建的中文数据子集上进行实验,表明改进后的ATTm模型相较于其他模型效果更好。同时进行最大数据差异量的比较,进一步验证了上述结论。(3)提出关系对差值权重矩阵的动态知识图谱补全模型。以引入时间信息到数据集和模型中的方式,将三元组扩充为“四元组”。具体地,对数据集而言,将外部文本信息与数据集中现有的实体进行链接,并从外部文本信息中提取相关包含时间的语义信息,使得数据集依照每个实体都带有对应的时间信息作为时间上更新是否有效的判据;对模型而言,本文提出关系对作差,将遵循和违背时间顺序发展的关系对差值分别变小和变大,并将关系对作差结果以权重矩阵的形式与ATTm模型结合。将改进后的ATTm-d模型与现有的动态补全模型进行比较,同时进行中英文数据集的对比实验,发现时间信息的引入剔除了不满足时间意义的三元组数据,模型的精度获得了进一步的提高,能够对数据集的层次性有更好的识别效果。
其他文献
随着恶意代码造成的危害日益严重、威胁的领域愈加广泛,恶意代码的检测和分类问题显得更为急迫重要。其中,恶意代码的家族分类对于快速了解恶意代码感染策略、威胁级别,并对其及时开展防范具有重要意义。基于静态特征的恶意代码家族分类具有特征提取时间短、资源消耗少、可扩展性强等特点,在处理分析当前数量呈指数级增长的大规模恶意代码时具有较大优势,一直是当前恶意代码分析的研究热点之一。本文结合深度学习方法,对恶意代
学位
乳腺癌作为在女性中发病率最高的一种癌症,严重影响着女性的健康。但是,如果能使用医学手段及早发现,治愈率还是很高的。所以早期的筛查和治疗是提高乳腺癌患者生存率的重要手段。乳腺X光造影技术的价格相对来说比较便宜,对于病人的身体损伤小,并且医生操作方便,非常适合于乳腺癌的早期检查。因此,以乳腺X光图像作为数据集的医学图像成为临床研究和学术研究的重要图像数据。卷积神经网络在图像分类领域的处理手段得到的效果
学位
<正>总部位于奥地利蒂罗尔州的Egger集团,在美国北卡罗来纳州列克星敦市建了一个新厂,该厂是其第20家工厂,于2020年9月开始投产。早在2017年,Egger集团就宣布要在列克星敦市新建一条刨花板生产线和两条短周期贴面生产线。Egger集团工厂经理Ritterbach说:"该生产线的投资为公司的发展提供了机会,扩大了市场占比,可缩短交货期,旨在为市场提供新的创意、产品和服务。"
期刊
随着科学技术和人工智能的迅速发展,智能移动设备的数量急速增加,它们生成的数据呈指数式暴涨,且需要及时处理并分析以提取其最大价值。然而,由于移动设备的处理能力、存储容量等限制,它对应用程序的计算需求反应缓慢,远远满足不了那些新兴移动应用的发展需求,并不能给用户很好的使用体验。且远程云数据中心与移动设备之间的传输距离过长,这将带来过大的传输时延,加重网络负载。移动边缘计算(Mobile Edge Co
学位
无线中继具有接收信噪比高、覆盖范围广、吞吐量高和传输功耗低等优势,被广泛应用于各种无线通信网络。然而,无线基础设施和用户终端的快速增长引起了能源消耗的激增,进一步为网络运营商带来巨额的电费和维护费用,也带来许多环境问题。为了缓解这些问题,绿色无线通信引起了学术界和工业界的重视。此外,当无线通信网络频谱效率提高时,需要传输更多的数据进而消耗更多的能量引起能量效率的降低,因此能量效率和频谱效率之间的权
学位
视觉导航技术一直以来都是无人驾驶技术研究领域的核心问题之一。现有的端到端的或是基于强化学习的无人驾驶控制技术存在可解释性不强、鲁棒性差的缺点。本文通过引入预瞄点作为中间变量,建立了一套基于图像预瞄点估计的视觉导航渐进优化算法,并提出了一套包含数据采集方法、模型循环更新方法等算法的完整算法框架。同时基于此框架对算法性能、样本采集效率等进行了优化探索。本文主要研究内容和成果包括:1.针对传统端到端的视
学位
机器阅读理解任务旨在让机器理解自然语言文档并回答相关问题,近年来,由提问者每次仅提出一个问题的单问题阅读理解任务(Sq-MRC)发展迅速。但在现实中,我们经常遇到这样的情况,提问者提出一系列不间断的问题来增加对事物的了解,对应任务称为连续问题阅读理解任务(Cq-MRC)。由于连续问题中后续问题存在表达不完整的现象,如回指或主语省略,以及缺乏用于模型训练和性能评估的大规模标注样本,因此极具挑战。本文
学位
本文针对市政工程施工管理现状和存在的问题,探讨环保型施工措施的优势,并分析了该措施在市政工程施工管理中的应用效果。研究表明,环保型施工措施具有节能减排、资源利用率高等优势,对改善施工环境和提升施工质量具有积极意义。
期刊
类石墨烯低维纳米材料由于非线性吸收系数大、调制深度大、激子发射信号强等特性,在全光开关、新型探测器等全光器件中极具潜力。其中,全光开关在微波光子、光计算等领域中显得尤为重要。但目前全光开关器件的实现上面临许多难题,包含调制深度低、开关比低和功耗高等核心问题。本课题从提高光开关的调制深度出发,对低维纳米材料中的非线性吸收和相变驱动激子发射效应进行研究。相关工作如下:1.自主搭建了微区P扫描实验系统(
学位
随着无电子束固态高功率微波器件的发展和微波光子学的兴起,以及现代半导体技术的快速革新,利用光导半导体开关(Photoconductive semiconductor switch,PCSS)产生高功率射频或微波的方式受到广泛关注,在功率合成和频率捷变等方面具有巨大潜力。然而,该技术目前存在光电耦合不佳、光电转换效率低的问题,影响系统的高效化、小型化、紧凑化发展。为此,本文开展了如下工作:1.阐述了
学位