领域知识图谱构建方法与实践

来源 :南京大学 | 被引量 : 0次 | 上传用户:syf1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络,深度学习等技术的飞速发展,感知智能的研究和应用有了长足的进步,而人工智能的另一方面:认知智能,也越来越受到人们的关注。其中,知识图谱作为实现认知智能的重要一环,其研究和应用也被学术界和产业界愈加重视。目前,知识图谱的相关技术已经应用于诸如搜索引擎、智能问答、语言理解、推荐系统等多个领域,给人们的生产和生活带来了极大的便利。根据知识图谱涉及的知识范围,我们可以将知识图谱分为通用知识图谱,行业知识图谱,领域知识图谱等多个类别。通用知识图谱等大型的知识图谱的目的是尽可能地将各个方面的知识都囊括其中,需要从海量的数据中构建出知识图谱,构建过程具有极高的难度与复杂度。因此会耗费巨大的人力物力,只有谷歌,百度等大型的互联网厂商才有需求与能力实现。与通用知识图谱相比,领域知识图谱一方面构建难度相对更低,只需要涉及领域内的知识即可,另一方面许多行业与公司目前都对构建本领域的知识图谱有一定的需求。虽然单个领域的知识图谱构建难度小于通用知识图谱的构建,但是目前领域知识图谱的构建研究也存在着种种的问题:●从零构建领域知识图谱:目前领域知识图谱的构建集中于金融、医疗、教育等热门领域,其他许多领域构建知识图谱却需要从零开始,而且难以利用现有的知识图谱构建方法。不同领域涉及的内容之间差别很大,需要处理的知识的粒度、广度、深度也大不相同,因此不同领域知识图谱之间的构建方式很难有借鉴意义,导致了从零构建知识图谱难度大。●领域知识图谱构建过程面临一定的技术难题:关系抽取在进行有监督/半监督抽取时缺少标注数据,需要平衡标注成本与抽取精度之间的关系;领域本体的定义和构建对人工的依赖非常高,绝大部分情况下都是手工构建本体,甚至常常需要专家的参与,难以实现自动化。本文针对以上提到的领域知识图谱构建过程中存在的问题进行了研究,主要研究成果如下:●领域知识图谱构建流程化:针对从零构建知识图谱的领域难以借鉴与复用其他领域的知识图谱的情况,本文总结了领域知识图谱构建的方法与流程,归纳为数据获取、领域短语挖掘、本体构建、实体-关系抽取、数据存储、检索/可视化(简单应用)等六个步骤,并对每个步骤进行具体设计和实现,形成领域知识图谱构建平台,适用于任何领域的知识图谱构建。●改进关系抽取方案:本文对于关系抽取精度要求较高与精度要求不高两种情况分别给出了针对性方案。针对精度要求较高的实体-关系抽取,本文为有监督关系抽取方法搭建了一个用于对语料进行标注实体-关系的平台与网站,提供在线标注、多人协同、添加备注、进度统计、一键导出数据等功能,大大降低了有监督关系抽取的成本与难度。针对精度要求不高的实体-关系抽取,本文提出改进Bootstrapping关系抽取方法并引入词向量评估抽取结果的方案。另外,本文针对实际操作中的关系抽取问题,将构建领域知识图谱过程中可能遇到实体-关系分类,并针对每一类方法提出解决方案。●实现本体从零开始的自动构建:针对许多领域知识图谱构建面临的无可复用本体,本体构建人工参与度高的问题,本文提出借鉴通用知识图谱构建的自底向上方法,利用百科数据和Word Net辅助领域短语自动/半自动构建领域本体。●构建军事领域知识图谱:利用上述的技术与方案,本文以军事领域为例,构建了一个军事领域知识图谱。
其他文献
本文研究的是网络设计问题,它原本是运筹学里一个经典问题,广泛存在并大量应用于现实工业界的生产中,如传统的城市道路网规划设计问题、物流传输网点布设问题等。而随着互联网技术的飞速发展,人们开始不得不面对波分复用网络的网络设计问题。有两个问题常常出现在波分复用网络设计中:设计一个网络使其建设成本最低;疏导网络中的流量,使得网络的信道利用率最大。然而在实际应用中,这两个问题往往是同时出现,协同处理的,称为
分析型数据库是面向分析应用的数据库。在较大量级的数据分析中,如何评估和提升数据库的稳定性,是一个较为关键的问题。因此,研究一个能够针对分析型数据库的统计、分析和随机查询等功能场景,对分析型数据库稳定性进行分析和评估的测试工具具有重要意义。针对分析型数据库,设计了分析型数据库稳定性测试工具的方案。该方案采用计算测试指标的变异系数的方法来评估分析型数据库的稳定性。根据实际市场上的分析型数据库的主要业务
随着开关电源向着高频化方向发展,功率开关器件的开关损耗在系统损耗中所占比重越来越大。加快开关速度有助于减小开关损耗,快速开关器件CoolMOS器件应运而生,但快速开关会给系统带来更加严重的EMI(Electro Magnetic Interference)问题。通过实时控制驱动电流,可以在EMI和开关损耗之间进行权衡,从而优化开关性能。传统的闭环控制方式通过检测功率开关器件的状态实时调整驱动速度,
学位
澜沧江-湄公河(以下简称澜湄)流经中国、缅甸、老挝、泰国、柬埔寨、越南六国,是中国与东南亚陆地国家联系的重要纽带。随着中国与湄公河国家合作的深化与发展,澜湄流域的水资源形势面临着愈发严峻的挑战。从多层级治理的角度观察,澜湄流域水资源治理分析包括澜湄流域水资源问题及成因,国家、区域以及全球层面澜湄水资源治理的内容与效应等。澜湄水资源多层级治理相比一般的水资源管理,其涉及的主体多元,包括国家、政府间国
中国服装连锁零售行业发展已经由原来的初创期的为生存而战,已经发展到能有体系的制定中长期的战略来制定当前的营销策略,但仍然没有出现世界级的中国服装品牌,千亿级的服装品牌企业,对比国外优衣库、ZARA这些千亿企业,中国企业一定有机会跻身其中。本文以A服装公司为例,首先通过分析A公司的面临的内外部环境,结合营销4Ps理论、定位理论和顾客价值理论,然后分析了A公司行业发展现状和趋势,找到了市场营销的问题,
学位
学位
学位
学位