【摘 要】
:
命名实体关系是构建语义网络、本体和语义Web的基础,并且广泛应用于信息检索、机器翻译以及自动问答等系统中。在命名实体关系抽取研究中,特征选择和特征抽取是两个关键问题
论文部分内容阅读
命名实体关系是构建语义网络、本体和语义Web的基础,并且广泛应用于信息检索、机器翻译以及自动问答等系统中。在命名实体关系抽取研究中,特征选择和特征抽取是两个关键问题。位置特征拥有良好的可计算性和可操作性,同时语义特征具有较强的可理解性和现实性。目前,中文命名实体关系抽取主要采用空间向量模型、传统语义计算或支持向量机等方法。上述三种方法均是单一地使用位置特征或语义特征,没能将两种特征进行合理而有效地结合,因此抽取效果均不够理想。为了提高中文命名实体关系抽取的效果,本文提出了一种基于位置特征和语义特征相结合的关系抽取算法LaSE(Location and Semantic Extraction)。本文的主要工作如下:(1)在确保关系抽取效果的前提下,LaSE算法灵活地运用词语的词性识别命名实体,替代了传统抽取方法需要人工提供的命名实体表。一方面,这一改进大大地减少了人工参与;另一方面,词性是一个与领域无关的概念,不会引入任何领域知识。(2)本文中,采用基于词语间相对距离的信息增益来刻划位置特征,使用基于泛本体《知网》的语义相似度计算来抽取语义特征。通过位置特征和语义特征的结合,能很好地适应中文实际情况。大量实验证明:LaSE算法的抽取效果明显高于单一使用位置特征或语义特征的抽取算法。(3)LaSE算法仅需要提供少量的关系种子就能自动抽取目标关系的关系实例,是一种半监督学习算法;算法不需要任何领域知识,具有良好的领域独立性,从一个领域移植到到另一个领域时算法无需任何修改;算法具有线性的时间复杂度和较低的空间复杂度,可扩展应用于处理海量数据。
其他文献
随着互联网的快速发展和广泛应用,Web Service已经成为网格和分布式计算基础结构和应用构建的标准,基于Web Service的分布式计算模式也逐渐成为应用模式和软件相关技术发展的
随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个
全国大学生英语四六级网考在教育部的推进下渐渐成形,四六级作文的自动评分成为一个随之出现的新课题。以往四六级作文阅卷采用人工评分,工作量很大,且很难保证评分的准确性和客
随着计算机网络和分布式系统的快速发展和普遍应用,应用系统的形态正从面向封闭的、熟识用户群体的、相对静态的服务模式向开放的、公共可访问的、动态协作的服务模式转变。
利用数据发现结构模型中的因果关系是机器学习领域中的一个重要研究内容。当前的结构模型因果发现主要有两类,一种是直接利用观察数据的被动学习方法,另一种是结合观察数据和
随着国家教育战略的推进和社会经济的迅猛发展,对各类应用型人才的需求量也愈来愈大,广播电视大学开展的现代远程开放教育的办学模式已愈来愈为社会各界广泛接受。近年来,各
随着Internet的不断发展和企业电子商务水平的逐渐提高,各种组织和商业实体正在逐步地将其业务模式转向Internet,Internet上的应用越来越多。Web服务通过借鉴和利用现有的Inter
随着互联网上信息的快速增长,搜索引擎在用户获取信息过程中起着越来越重要的作用。通用搜索引擎在用户需求的驱动下,技术上取得巨大的进步,商业上也获得了巨大的成功。然而在互
时下,网络作为主导信息来源手段对人们的生产生活方式带来了迅速的转变,信息检索的便利性不言而喻。但是,传统的搜索引擎无法使用户在特定时间内得到有效的检索结果。基于此,
随着计算机技术、网络技术、数据库技术等的发展和应用的不断深化,地理信息系统(Geographical Information System,GIS)的发展呈现出新的特点和趋势,基于互联网的WebGIS就是