领域知识图谱构建方法与实践

来源 :南京大学 | 被引量 : 0次 | 上传用户：syf1122

【摘要】

：

【作者】

：

孟凡杰

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2021年01期

【关键词】

：

领域知识图谱流程化关系抽取本体自动构建

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着神经网络,深度学习等技术的飞速发展,感知智能的研究和应用有了长足的进步,而人工智能的另一方面:认知智能,也越来越受到人们的关注。其中,知识图谱作为实现认知智能的重要一环,其研究和应用也被学术界和产业界愈加重视。目前,知识图谱的相关技术已经应用于诸如搜索引擎、智能问答、语言理解、推荐系统等多个领域,给人们的生产和生活带来了极大的便利。根据知识图谱涉及的知识范围,我们可以将知识图谱分为通用知识图谱,行业知识图谱,领域知识图谱等多个类别。通用知识图谱等大型的知识图谱的目的是尽可能地将各个方面的知识都囊括其中,需要从海量的数据中构建出知识图谱,构建过程具有极高的难度与复杂度。因此会耗费巨大的人力物力,只有谷歌,百度等大型的互联网厂商才有需求与能力实现。与通用知识图谱相比,领域知识图谱一方面构建难度相对更低,只需要涉及领域内的知识即可,另一方面许多行业与公司目前都对构建本领域的知识图谱有一定的需求。虽然单个领域的知识图谱构建难度小于通用知识图谱的构建,但是目前领域知识图谱的构建研究也存在着种种的问题:●从零构建领域知识图谱:目前领域知识图谱的构建集中于金融、医疗、教育等热门领域,其他许多领域构建知识图谱却需要从零开始,而且难以利用现有的知识图谱构建方法。不同领域涉及的内容之间差别很大,需要处理的知识的粒度、广度、深度也大不相同,因此不同领域知识图谱之间的构建方式很难有借鉴意义,导致了从零构建知识图谱难度大。●领域知识图谱构建过程面临一定的技术难题:关系抽取在进行有监督/半监督抽取时缺少标注数据,需要平衡标注成本与抽取精度之间的关系;领域本体的定义和构建对人工的依赖非常高,绝大部分情况下都是手工构建本体,甚至常常需要专家的参与,难以实现自动化。本文针对以上提到的领域知识图谱构建过程中存在的问题进行了研究,主要研究成果如下:●领域知识图谱构建流程化:针对从零构建知识图谱的领域难以借鉴与复用其他领域的知识图谱的情况,本文总结了领域知识图谱构建的方法与流程,归纳为数据获取、领域短语挖掘、本体构建、实体-关系抽取、数据存储、检索/可视化（简单应用）等六个步骤,并对每个步骤进行具体设计和实现,形成领域知识图谱构建平台,适用于任何领域的知识图谱构建。●改进关系抽取方案:本文对于关系抽取精度要求较高与精度要求不高两种情况分别给出了针对性方案。针对精度要求较高的实体-关系抽取,本文为有监督关系抽取方法搭建了一个用于对语料进行标注实体-关系的平台与网站,提供在线标注、多人协同、添加备注、进度统计、一键导出数据等功能,大大降低了有监督关系抽取的成本与难度。针对精度要求不高的实体-关系抽取,本文提出改进Bootstrapping关系抽取方法并引入词向量评估抽取结果的方案。另外,本文针对实际操作中的关系抽取问题,将构建领域知识图谱过程中可能遇到实体-关系分类,并针对每一类方法提出解决方案。●实现本体从零开始的自动构建:针对许多领域知识图谱构建面临的无可复用本体,本体构建人工参与度高的问题,本文提出借鉴通用知识图谱构建的自底向上方法,利用百科数据和Word Net辅助领域短语自动/半自动构建领域本体。●构建军事领域知识图谱:利用上述的技术与方案,本文以军事领域为例,构建了一个军事领域知识图谱。

其他文献

带流量疏导的波分复用网络设计问题研究

本文研究的是网络设计问题,它原本是运筹学里一个经典问题,广泛存在并大量应用于现实工业界的生产中,如传统的城市道路网规划设计问题、物流传输网点布设问题等。而随着互联网技术的飞速发展,人们开始不得不面对波分复用网络的网络设计问题。有两个问题常常出现在波分复用网络设计中:设计一个网络使其建设成本最低;疏导网络中的流量,使得网络的信道利用率最大。然而在实际应用中,这两个问题往往是同时出现,协同处理的,称为

学位

元启发式算法局部搜索网络设计问题流量疏导

分析型数据库稳定性测试工具的设计与实现

分析型数据库是面向分析应用的数据库。在较大量级的数据分析中,如何评估和提升数据库的稳定性,是一个较为关键的问题。因此,研究一个能够针对分析型数据库的统计、分析和随机查询等功能场景,对分析型数据库稳定性进行分析和评估的测试工具具有重要意义。针对分析型数据库,设计了分析型数据库稳定性测试工具的方案。该方案采用计算测试指标的变异系数的方法来评估分析型数据库的稳定性。根据实际市场上的分析型数据库的主要业务

学位

分析型数据库稳定性指标测试变异系数

CoolMOS器件低开关损耗驱动芯片的研究与设计

随着开关电源向着高频化方向发展,功率开关器件的开关损耗在系统损耗中所占比重越来越大。加快开关速度有助于减小开关损耗,快速开关器件CoolMOS器件应运而生,但快速开关会给系统带来更加严重的EMI（Electro Magnetic Interference）问题。通过实时控制驱动电流,可以在EMI和开关损耗之间进行权衡,从而优化开关性能。传统的闭环控制方式通过检测功率开关器件的状态实时调整驱动速度,

学位

CoolMOS驱动开环有源可编程高精度

我国西部地区数字普惠金融的减贫效应与影响机制研究

学位

澜湄流域水资源多层级治理分析

澜沧江-湄公河（以下简称澜湄）流经中国、缅甸、老挝、泰国、柬埔寨、越南六国,是中国与东南亚陆地国家联系的重要纽带。随着中国与湄公河国家合作的深化与发展,澜湄流域的水资源形势面临着愈发严峻的挑战。从多层级治理的角度观察,澜湄流域水资源治理分析包括澜湄流域水资源问题及成因,国家、区域以及全球层面澜湄水资源治理的内容与效应等。澜湄水资源多层级治理相比一般的水资源管理,其涉及的主体多元,包括国家、政府间国

学位

水资源多层级治理澜湄合作命运共同体

A服装公司市场营销策略研究

中国服装连锁零售行业发展已经由原来的初创期的为生存而战,已经发展到能有体系的制定中长期的战略来制定当前的营销策略,但仍然没有出现世界级的中国服装品牌,千亿级的服装品牌企业,对比国外优衣库、ZARA这些千亿企业,中国企业一定有机会跻身其中。本文以A服装公司为例,首先通过分析A公司的面临的内外部环境,结合营销4Ps理论、定位理论和顾客价值理论,然后分析了A公司行业发展现状和趋势,找到了市场营销的问题,

学位

4Ps理论渠道管理产品策略营销策略定位

政府数字治理能力评估指标体系构建研究

学位

第三方互联网保险平台的用户画像研究 ——基于保险消费者行为数据的分析

学位

贸易自由化对制造业服务化的影响研究

学位

基于用户行为的移动应用更新效用与策略研究

学位

领域知识图谱构建方法与实践

其他学术论文