论文部分内容阅读
随着大数据时代的到来,知识图谱正成为知识表示的重要形式。由于知识图谱能够为客观世界提供较完整的语义化描述,因而在语义搜索、机器阅读、智能问答和各种智能认知领域得到越来越广泛的应用,知识图谱的自动构建是知识图谱的核心技术,已经成为当前新一代人工智能领域的研究热点之一。面向海量网络文本数据的信息抽取作为知识图谱构建的基础性技术,是当前人工智能领域的重要研究课题。与限定语料领域和语义类别的传统的文本信息抽取技术不同,网络文本具有海量性、领域开放性和不规范性等特点。本文基于知识图谱的构成成分,针对开放式中文文本数据,重点围绕实体识别、实体消歧、关系抽取、属性抽取等关键技术进行研究,取得的主要成果有:1)提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法针对基于启发式规则、词典匹配和有监督的机器学习模型等传统的实体识别方法所存在的任务依赖性强、自适应能力差、实体类别有限等局限,为满足大规模中文知识图谱自动构建的需求,本文在开放性中文文本数据中,提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法,包括实体边界检测和实体指称项分类两部分。实体边界检测旨在检测出所有的命名性和名词性实体指称项,首先利用浅层和深层句法分析从文本中自动获取边界完整的名词词组作为实体指称项候选集,然后结合主题模型和统计算法,通过度量指称项对文档的重要程度,从候选集中过滤非实体指称项。实体指称项分类旨在识别实体指称项的实体类别和指称项类别。本文给出了一种基于分布语义的类别决策算法,通过度量实体指称项的上下文信息的语义相似度,来识别实体类别。此外,利用浅层的句法知识制定规则,对每种实体类别下的指称项,实现命名性和名词性类别的判定。在自然语言处理领域ACE和DEFT两个知名的公开数据集上进行实验,结果表明了该方法在实体指称项边界检测和分类方面的有效性。2)提出了一种基于知识驱动的无监督的实体链接消歧方法针对中文实体指称项可能存在的多样性和歧义性问题,本文提出了一种基于知识驱动与推理链接的消歧方法。该方法借助外部知识的驱动,通过将中文文本中实体指称项链接到本地知识库中正确实体,来达成实体消歧的目标。首先,引入增量证据挖掘思想,即利用外部知识源丰富和优化实体指称项和本地知识库的相关信息,有利于解决语境缺乏、描述不规范的问题,并降低了对本地知识库的依赖性。然后,依据实体多方面知识,提出了一种推理链接算法,该算法综合利用了实体名称、类别、语境信息、流行度、和实体之间的语义相关度等,以及实体在外部知识源和本地知识库中的关联关系,来提高实体链接的准确性和召回率,从而达到实体指称项精准消歧的目的。在自然语言处理领域NLPCC知名的公开数据集上进行实验,结果验证了该方法的可行性。3)提出了一种基于句法模式和机器学习的弱监督的开放式关系抽取方法针对传统的关系抽取方法存在训练语料领域限定和关系类别有限的问题,本文提出了一种弱监督的开放式关系抽取方法,其特点是利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的<实体1,关系指示词,实体2>关系三元组数据格式输出,关系表示灵活且类别无数量限制。该方法的基本思路是,首先基于句法分析,从文本中自动获取关系三元组候选集并抽象为句法模式。然后,基于设计的正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料。最后,融入浅层(如词性标签)和深层(如依存句法结构)等丰富的文本特征,训练分类器模型,实现对实体关系三元组的区分和辨别。在人民网、新浪网等真实新闻数据集和百度百科数据集上进行实验,结果表明了该方法的有效性。4)提出了一种基于双向长短期记忆网络的弱监督的实体属性值抽取方法传统的实体属性值抽取方法需要人工制定句法模式、标注训练语料以及定义文本特征,既增加了人工成本,又使得抽取性能严重依赖于模式、语料和特征的覆盖率。针对以上不足,本文提出了一种面向开放式中文网络文本数据的弱监督的实体属性值抽取方法。该方法综合利用句法分析、词向量模型和深度学习技术,将实体属性值抽取转化为关系分类问题。首先提出了一种基于类别映射的方法自动生成训练语料。该方法利用属性名信息获取属性值的类别映射,并结合句法知识和正则表达式识别实体属性值,同时抽取其与实体相关的文本片段作为训练语料,有助于去除语料中的噪音信息,降低学习模型对训练语料规模的依赖性。然后,利用词向量模型将训练语料表示为向量形式,同时融入简单有效的文本特征,来训练当前流行的深度学习模型——双向长短期记忆网络分类模型,用于实体、属性名和属性值之间的关系判定。在自然语言处理领域TAC知名的公开数据集上进行实验,结果表明了该方法的有效性,并明显优于其他传统的和基于深度学习技术的方法。