论文部分内容阅读
随着神经网络,深度学习等技术的飞速发展,感知智能的研究和应用有了长足的进步,而人工智能的另一方面:认知智能,也越来越受到人们的关注。其中,知识图谱作为实现认知智能的重要一环,其研究和应用也被学术界和产业界愈加重视。目前,知识图谱的相关技术已经应用于诸如搜索引擎、智能问答、语言理解、推荐系统等多个领域,给人们的生产和生活带来了极大的便利。根据知识图谱涉及的知识范围,我们可以将知识图谱分为通用知识图谱,行业知识图谱,领域知识图谱等多个类别。通用知识图谱等大型的知识图谱的目的是尽可能地将各个方面的知识都囊括其中,需要从海量的数据中构建出知识图谱,构建过程具有极高的难度与复杂度。因此会耗费巨大的人力物力,只有谷歌,百度等大型的互联网厂商才有需求与能力实现。与通用知识图谱相比,领域知识图谱一方面构建难度相对更低,只需要涉及领域内的知识即可,另一方面许多行业与公司目前都对构建本领域的知识图谱有一定的需求。虽然单个领域的知识图谱构建难度小于通用知识图谱的构建,但是目前领域知识图谱的构建研究也存在着种种的问题:●从零构建领域知识图谱:目前领域知识图谱的构建集中于金融、医疗、教育等热门领域,其他许多领域构建知识图谱却需要从零开始,而且难以利用现有的知识图谱构建方法。不同领域涉及的内容之间差别很大,需要处理的知识的粒度、广度、深度也大不相同,因此不同领域知识图谱之间的构建方式很难有借鉴意义,导致了从零构建知识图谱难度大。●领域知识图谱构建过程面临一定的技术难题:关系抽取在进行有监督/半监督抽取时缺少标注数据,需要平衡标注成本与抽取精度之间的关系;领域本体的定义和构建对人工的依赖非常高,绝大部分情况下都是手工构建本体,甚至常常需要专家的参与,难以实现自动化。本文针对以上提到的领域知识图谱构建过程中存在的问题进行了研究,主要研究成果如下:●领域知识图谱构建流程化:针对从零构建知识图谱的领域难以借鉴与复用其他领域的知识图谱的情况,本文总结了领域知识图谱构建的方法与流程,归纳为数据获取、领域短语挖掘、本体构建、实体-关系抽取、数据存储、检索/可视化(简单应用)等六个步骤,并对每个步骤进行具体设计和实现,形成领域知识图谱构建平台,适用于任何领域的知识图谱构建。●改进关系抽取方案:本文对于关系抽取精度要求较高与精度要求不高两种情况分别给出了针对性方案。针对精度要求较高的实体-关系抽取,本文为有监督关系抽取方法搭建了一个用于对语料进行标注实体-关系的平台与网站,提供在线标注、多人协同、添加备注、进度统计、一键导出数据等功能,大大降低了有监督关系抽取的成本与难度。针对精度要求不高的实体-关系抽取,本文提出改进Bootstrapping关系抽取方法并引入词向量评估抽取结果的方案。另外,本文针对实际操作中的关系抽取问题,将构建领域知识图谱过程中可能遇到实体-关系分类,并针对每一类方法提出解决方案。●实现本体从零开始的自动构建:针对许多领域知识图谱构建面临的无可复用本体,本体构建人工参与度高的问题,本文提出借鉴通用知识图谱构建的自底向上方法,利用百科数据和Word Net辅助领域短语自动/半自动构建领域本体。●构建军事领域知识图谱:利用上述的技术与方案,本文以军事领域为例,构建了一个军事领域知识图谱。