领域知识图谱构建方法的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:angelleosy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据时代,各行业无时无刻都在产生着大量的数据,众多行业都需要构建自身领域的知识图谱(领域知识图谱)。然而,领域知识图谱的构建往往面临着领域相关数据缺乏、人工标注依赖大等困难。因此,如何在有限的领域数据条件下,自动创建新的标注数据,减少人工工作量是当前领域知识图谱构建迫切需要解决的关键问题。本文围绕领域知识图谱构建中的数据处理、知识抽取、知识融合、知识存储等主要环节展开工作,重点研究数据处理和知识抽取,针对现有技术的不足,提出新的方法和解决方案。本文的主要贡献有如下几个方面:1.在数据处理环节,针对筛选领域文本过程中人工工作量巨大的问题,提出一种基于局部敏感哈希的SVM分类方法,实现自动领域文本筛选。该方法采用局部敏感哈希算法对原始训练样本进行映射,进而筛选出可能的边界样本点作为SVM训练样本,显著地减少了SVM训练样本数目,提高了模型构建速度。同时,采用网格搜索算法以交叉验证的方案实现SVM参数的选择以提高文本分类精度。在公开数据集UCI Adult上对提出方法进行了性能分析,并在搜狗实验室文本分类数据集上验证了效果。2.在知识抽取环节,针对模型训练中标注语料缺乏的问题,提出一种基于Seq2Seq模型的标注语料自动生成方法,用以扩充形如“实体1-关系-实体2-句子”的四元组标注语料。该方法对大量未标注的文本采用基于保留词的回译法,生成相应同义句作为训练语料;在模型训练阶段,采用实体标签替换的方法,以使得模型学习到与实体无关的同义句生成规则;在文本生成阶段,采用基于自检索束搜索的生成策略,保证了模型的输出包含指定实体和关系。通过将生成的标注语料作为训练语料用于关系抽取任务中,验证了该方法的有效性。3.根据以上研究,设计了一个领域知识图谱构建的方案,并以金融领域知识图谱构建为例,具体设计和实现了从数据处理、知识抽取、知识融合到知识存储的图谱构建流程,并展示了金融领域知识图谱的基本功能。
其他文献
现实生活中不断产生大量的短文本数据,例如新闻文本,美团、大众点评等网站上用户发表的针对某些方面的评论。文本数据的产生必然伴随着对数据的归类,如何提升分类效率,减少人工成本,这便是文本数据分类的研究方向。此外从这些海量数据中挖掘出用户的情感,有助于精准地刻画用户,从而辅助平台进行针对性的提供服务。然而,目前大多数方法都忽略了文本单词之间的联系或是方面词与上下文之间的联系,导致分类性能表现不好。本文主
西双版纳哈尼族阿卡人是分布于我国西南边陲云南地区的少数民族和跨境民族之一,竹筒舞是阿卡人物质生活与精神文明的结晶,是承载着民族历史文化、生产生活、宗教信仰、思想情感、审美理想的活化石。近年来,哈尼族舞蹈不断出现在大众视野中,不仅被推选为省级非物质文化遗产,也逐渐有优秀的舞蹈作品出现于舞蹈专业赛事中。竹筒舞蹈表现内容多元性、风格动律独特性、外部形态丰富性、文化内涵深邃性,由内而外显示出竹筒舞朴实无华
目前常见的脑功能成像技术包括脑电图、功能磁共振成像技术和功能近红外光谱技术等。脑神经活动会引起血流动力学变化,功能近红外光谱技术利用脑组织中氧合血红蛋白和脱氧血红蛋白红对600~900nm近红外光具有较强的吸收率,从而获得脑神经活动时氧合血红蛋白和脱氧血红蛋白浓度的变化情况。功能近红外光谱技术与脑电图相比具有较高的空间分辨率,与功能磁共振成像技术相比具有良好的时间分辨率,同时f NIRS在设备成本
磁共振成像不仅可以进行结构成像,也可以进行功能成像,因此磁共振功能成像被广泛应用于脑功能研究中。在主磁场强度B0为3.0T及以下的磁共振扫描设备中,常使用平面回波成像序列进行功能成像。平面回波成像序列由于其特殊的梯度编码方式实现了一次射频脉冲激发采集整个K-空间数据,使其能够在很短的时间内完成全脑的扫描,但是这种特殊的成像方式也给平面回波成像序列引入了伪影以及低分辨率的问题。由于功能磁共振成像使用
随着深度学习的发展,基于深度学习的目标检测技术逐渐成为计算机视觉领域的一个研究热点。然而现有的目标检测算法通常无法做到检测效率和精度的平衡。其次,目标检测算法只能预测物体的边框坐标,无法精确到物体的轮廓,因此如何在保证检测效率的同时,使目标检测算法可以精确到物体的轮廓是一个待解决的问题。此外,由于目标检测数据集的标注较为复杂,需要耗费很多的时间成本以及人力成本,而现实场景中的物体分布和背景通常在不
伴随着因特网和各类信息技术的蓬勃发展,世界已经从信息匮乏时代迈向信息过量时代,促使越来越多的研究者把目光投向于对推荐系统的研究,希望借助推荐系统的力量来帮助人们自动过滤信息,降低信息筛选成本。在本文中,我们将研究视角聚焦到具体的饮食领域。吃穿住行是人们日常消费的四大领域,其中“吃”被排在第一位,足以说明其重要性。为了满足用户饮食决策需求以及指导用户进行烹饪,诞生了各种各样的食谱网站,他们精心搜集食
射频识别(RFID)技术是物联网的关键技术之一,越来越广泛地在各个领域得到应用。超高频RFID读写器系统在接收过程中,发射连续载波,无源标签在接收后,将带有标签信息的反射波返回给读写器。在这个过程中,读写器持续发射的连续载波,由于链路泄露或者通信环境等原因导致残留,形成自干扰信号,与读写器接收的有用信号叠加、覆盖,使得读写器无法正常地完成对有用信号的接收和解析。因此,在超高频RFID系统工作过程中
计算机软件正在逐步渗透至人们生活的各个领域,人们对于软件的质量也有了更高的需求。在软件开发的各个阶段分别加入完整软件测试过程,可以保证测试的充分性及软件的可靠性和安全性。其中测试用例的设计往往是主要问题所在,自动化的测试用例生成已成为人们关注的重点。基于数据流的测试用例生成主要是利用搜索算法,来生成满足数据流覆盖准则的用例。相比于控制流覆盖准则,数据流覆盖准则不会丢失方法之间的数据流交互关系。在测
射频通信的发展对收发系统提出了更加严苛的指标要求,随着5G技术在通信领域的商用,针对5G频段庞大的芯片市场,5G芯片的研究具有重要意义。其中功率放大器作为收发系统中最为关键的一环,决定整个模组的发射效率,同时在很大程度上决定了整体功耗。鉴于此,本文使用2μm砷化镓HBT工艺针对5G RF1频段设计了一款频带为50MHz-6GHz的高增益驱动放大器。频段不仅覆盖5G RF1频段,也能用于TD-LTE
在存储系统领域,现有的分布式存储系统,受限于传统的硬件设施,只能通过在系统存储总量、存储的数据数目和系统的整体性能这三者之间做取舍的方式来满足不同存储场景的需求。比如面向大文件场景的HDFS具备较高的系统容量,但是却无法存储大量的小文件;面向小文件的TFS可以存储大量的小文件,但是却无法提供较高的读性能。但日渐活跃的人工智能、物联网以及云计算等领域迫切需要一个可以满足其海量小尺寸数据存储需求的分布