开放式中文实体关系抽取的研究与实现

来源 :东北大学 | 被引量 : 8次 | 上传用户:fyfy76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的快速发展,互联网已成为当今世界上最大的信息平台。面对互联网中日益增长的海量数据,单一的返回网页的信息检索方式已经无法满足人们准确高效获取信息的需求。信息抽取力求将网络中用自然语言表达的半结构或是非结构的内容,转化为结构化的知识库中的信息,从而,能够提供智能化、人性化的信息检索。作为信息抽取的一个重要组成部分,实体关系抽取对于理解和掌握网络信息、提供细粒度的检索服务有十分重要的意义。海量的开放领域的网络文本中存在大量的实体,包含着数目众多、类型未知的实体关系。传统的从特定领域的语料库中获取预定义类型的实体关系的关系抽取面临着严重的挑战。本文研究开放式的关系抽取,不限定语料的领域,不需要人工标注的语料库,不限定关系的类别,可以从Web中文语料中自动抽取到大量可靠的实体关系。利用网络数据的冗余性,自动获取用于关系抽取的实体对和句子。针对中文的句法表达,对标识实体对关系的关系特征词提取方法进行研究,提出了基于实体对位置、基于句法分析和基于马尔可夫逻辑网概率模型的关系特征词提取方法。在获取关系特征词集合后,研究了关系特征词数值化方法。采用凝聚层次聚类,使用组平均连通作为簇相似度的度量方法,将具有相似关系的实体对聚到同一个簇中,对同一个簇中的实体对标注关系类标签。最后,对聚类结果进行可靠性评价,从而提升获取的关系的质量。本文对开放式关系抽取的关系评价进行了深入研究,提出的概率模型能够对抽取出来的关系进行有效地评价,从而保证抽取出来的关系具有较高的可信度。实验结果表明,本文研究的基于聚类的开放式中文实体关系抽取取得了比较好的效果,能够获取大量有价值的实体关系,可以满足用户查询及实际应用的需求。
其他文献
在当今社会中,公共安全已经成为国家、社会、各级政府工作关心的重点,同时也是日常工作中的重中之重。当公共安全事件突发时,突发事件现场的实时情况,上级指挥部门和政府对各相关部门和下级单位传达的应急命令必须在第一时间送达。针对突发的公共安全信息下达的命令和应急措施是否能快速、及时、准确的送达到下级的相关部门,是迅速处理和控制突发的公共安全事件的关键。如果在突发的公共安全事件中,事件的相关及时信息和应急预
随着网络的普及以及电子商务和电子政务的蓬勃兴起,安全协议变得越来越重要,确保安全协议的安全性已经成为一项重要的研究课题。安全协议分析是一个很难解决的问题,20年来为
随着通信技术的飞速发展和互联网的日益普及,IP网络开始承载更加丰富的网络应用服务。传统的“best-effort”的服务方式已经不能满足许多网络业务的要求,对互联网服务质量保
粗糙集理论是一种处理不确定知识的有力工具,在各领域已得到了广泛应用。本文的研究工作主要集中在粗糙集应用过程中数据预处理和决策表约简两个方面,围绕当前存在的问题,对
WebGIS是一种结合了WWW技术和传统地理信息系统的全新的技术,近年来迅速成为GIS发展的最重要的方向之一,并在很多领域都得到了广泛的应用。“基于WebGIS的防汛信息服务系统”
本文讨论用间断Galerkin方法对一维和二维浅水方程进行求解的问题。对使用间断Galerkin方法求解浅水方程中所涉及到的过程及方法作了比较详细地说明。 在四叉树网格的基础
伴随着网络的发展,安全问题日益突出。传统的安全手段已经不能满足现代网络安全的发展要求,以防火墙为代表的被动防御措施已经不合时宜。作为第二道防线的入侵检测系统,以其主动
实时数据库根本目标就是使满足截止时间的事物数量为最大,因而管理和支持优先考虑时间的事务处理是非常重要的。然而,随着实时计算迅速发展,安全和时态一致性就成了许多实时
本文分析了目前安全评估技术中常用的信息探测技术、弱点检测技术和计算机网络安全模型,提出了一种用于分析潜在攻击路径的网络安全性分析模型,进而给出了基于本模型的网络
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问