面向中文知识图谱的开放式文本信息抽取关键技术研究

来源 :国防科技大学 | 被引量 : 8次 | 上传用户:SanMaker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,知识图谱正成为知识表示的重要形式。由于知识图谱能够为客观世界提供较完整的语义化描述,因而在语义搜索、机器阅读、智能问答和各种智能认知领域得到越来越广泛的应用,知识图谱的自动构建是知识图谱的核心技术,已经成为当前新一代人工智能领域的研究热点之一。面向海量网络文本数据的信息抽取作为知识图谱构建的基础性技术,是当前人工智能领域的重要研究课题。与限定语料领域和语义类别的传统的文本信息抽取技术不同,网络文本具有海量性、领域开放性和不规范性等特点。本文基于知识图谱的构成成分,针对开放式中文文本数据,重点围绕实体识别、实体消歧、关系抽取、属性抽取等关键技术进行研究,取得的主要成果有:1)提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法针对基于启发式规则、词典匹配和有监督的机器学习模型等传统的实体识别方法所存在的任务依赖性强、自适应能力差、实体类别有限等局限,为满足大规模中文知识图谱自动构建的需求,本文在开放性中文文本数据中,提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法,包括实体边界检测和实体指称项分类两部分。实体边界检测旨在检测出所有的命名性和名词性实体指称项,首先利用浅层和深层句法分析从文本中自动获取边界完整的名词词组作为实体指称项候选集,然后结合主题模型和统计算法,通过度量指称项对文档的重要程度,从候选集中过滤非实体指称项。实体指称项分类旨在识别实体指称项的实体类别和指称项类别。本文给出了一种基于分布语义的类别决策算法,通过度量实体指称项的上下文信息的语义相似度,来识别实体类别。此外,利用浅层的句法知识制定规则,对每种实体类别下的指称项,实现命名性和名词性类别的判定。在自然语言处理领域ACE和DEFT两个知名的公开数据集上进行实验,结果表明了该方法在实体指称项边界检测和分类方面的有效性。2)提出了一种基于知识驱动的无监督的实体链接消歧方法针对中文实体指称项可能存在的多样性和歧义性问题,本文提出了一种基于知识驱动与推理链接的消歧方法。该方法借助外部知识的驱动,通过将中文文本中实体指称项链接到本地知识库中正确实体,来达成实体消歧的目标。首先,引入增量证据挖掘思想,即利用外部知识源丰富和优化实体指称项和本地知识库的相关信息,有利于解决语境缺乏、描述不规范的问题,并降低了对本地知识库的依赖性。然后,依据实体多方面知识,提出了一种推理链接算法,该算法综合利用了实体名称、类别、语境信息、流行度、和实体之间的语义相关度等,以及实体在外部知识源和本地知识库中的关联关系,来提高实体链接的准确性和召回率,从而达到实体指称项精准消歧的目的。在自然语言处理领域NLPCC知名的公开数据集上进行实验,结果验证了该方法的可行性。3)提出了一种基于句法模式和机器学习的弱监督的开放式关系抽取方法针对传统的关系抽取方法存在训练语料领域限定和关系类别有限的问题,本文提出了一种弱监督的开放式关系抽取方法,其特点是利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的<实体1,关系指示词,实体2>关系三元组数据格式输出,关系表示灵活且类别无数量限制。该方法的基本思路是,首先基于句法分析,从文本中自动获取关系三元组候选集并抽象为句法模式。然后,基于设计的正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料。最后,融入浅层(如词性标签)和深层(如依存句法结构)等丰富的文本特征,训练分类器模型,实现对实体关系三元组的区分和辨别。在人民网、新浪网等真实新闻数据集和百度百科数据集上进行实验,结果表明了该方法的有效性。4)提出了一种基于双向长短期记忆网络的弱监督的实体属性值抽取方法传统的实体属性值抽取方法需要人工制定句法模式、标注训练语料以及定义文本特征,既增加了人工成本,又使得抽取性能严重依赖于模式、语料和特征的覆盖率。针对以上不足,本文提出了一种面向开放式中文网络文本数据的弱监督的实体属性值抽取方法。该方法综合利用句法分析、词向量模型和深度学习技术,将实体属性值抽取转化为关系分类问题。首先提出了一种基于类别映射的方法自动生成训练语料。该方法利用属性名信息获取属性值的类别映射,并结合句法知识和正则表达式识别实体属性值,同时抽取其与实体相关的文本片段作为训练语料,有助于去除语料中的噪音信息,降低学习模型对训练语料规模的依赖性。然后,利用词向量模型将训练语料表示为向量形式,同时融入简单有效的文本特征,来训练当前流行的深度学习模型——双向长短期记忆网络分类模型,用于实体、属性名和属性值之间的关系判定。在自然语言处理领域TAC知名的公开数据集上进行实验,结果表明了该方法的有效性,并明显优于其他传统的和基于深度学习技术的方法。
其他文献
日前,上海申通地铁集团与美国绿色建筑委员会、美国绿色事业委员会等4家单位共同签署战略合作框架协议,就推进全球绿色轨道交通行业标准的编制达成共识。此次合作将形成首个
期刊
奥尔夫音乐教学是高职学前教育专业学生必须掌握的技能之一。将奥尔夫教学法引入到歌唱教学中,能有效提升学生的专业技能,缓解歌唱教学中过于专业性所带来的学习疲劳。从高职
社会生活的信息化和经济的全球化,使英语的重要性日益突出。英语作为最重要的信息载体之一,已成为人类生活各个领域中使用最广泛的语言。许多国家在基础教育发展战略中,都把
本论文主要以清洁绿色的氧气为氧化剂,对硝基取代的烷基芳烃类化合物氧化为芳香醛、芳香醇和芳香酸类化合物进行了研究。该论文研究主要分为以下两个方面的工作:第一部分,采
招生宣传是高校招生工作的一个重要环节,它是高校快速发展的需要,也是为了满足考生及家长的需要。做好招生宣传工作,就要注重招生宣传策略,不断改进和探索招生宣传的方式方法
共享单车以经济环保、方便快捷、简单实用等诸多优点,成为人们日常出行不可少的交通工具。我们在享受其便捷时,也应该对其涉及的相关法律问题给予充分关注。2017年3月26日,上海
报纸
<正>网络谣言是一种危害性很大的谣言,也是对网络安全的一种重要的、现实的威胁。针对近几年社会中网络谣言层出不穷的状况,公安机关采取各种措施和手段进行了严厉打击和相关
会议
十月革命前后社会主义思潮浸润中华大地,成为时髦,一些政治人物鼓吹社会主义多出于加以利用的动机。共产国际来华帮助建党的维经斯基等人在访贤过程中与黄介民、姚作宾、江亢
针对水稻叶部常见病害图像直接分割造成的图像失真问题,采用Lab色彩模型,对水稻叶部病害图像进行差异化处理和k均值聚类分割。从验证实验表明,利用设计的方法能一定程度上减
日前,富士通发布的LjfeBook P8010笔记本电脑延续了“轻无边SlimEdge Design”设计理念,10.6寸轻盈机身搭载了12.1寸LED背光超炫丽宽屏幕,使屏幕显示面积提升33.8%,重量仅1.3k