基于特征向量的实体间语义关系抽取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ddssdcsyqc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展和广泛运用,大量的信息以非结构化电子文本的形式出现在人们面前。为了更好地获得这些非结构化信息,信息抽取应运而生。信息抽取,就是从自然文本中提取出预先指定好的信息,并给出该信息的结构化描述。其中,实体关系抽取作为信息抽取研究中的一个重要课题,它的基本任务是识别并判定实体对之间存在的特定关系,目前主要的抽取技术为基于特征向量和基于核函数的机器学习算法。实体关系抽取研究的意义在于它与信息过滤、信息检索和问答系统有直接的关联,并且作为一项基础性研究,它对于内容理解、语境生成、自动文摘、机器翻译、文本分类以及信息过滤等都有重要的研究意义。本文针对基于特征向量的实体关系抽取中涉及的两个主要问题(特征选取和特征选择)进行了研究,具体内容包括以下两方面:1.提出了基于语义角色特征的实体关系抽取方案。基于特征向量的实体关系抽取本质上是将实体关系抽取问题转化为分类问题,即先定义好几个关系类型,然后将实体对之间的关系分类到预定义的关系类型。目前实体关系抽取常用的特征有实体及其上下文特征、动词特征、距离特征、实体扩展特征等,然而实体间关系的判别是语义层面的,不能仅依赖于词语层面。因此本文提出了基于语义角色的实体关系抽取方案,该方案在常用特征的基础上新加入了语义角色特征。由于语义角色的标注代表了句子的浅层语法结构,它不仅暗示了谓词和谓词框架中其它词语之间的语义关系,还暗示了谓词的不同成分之间的语义关系。因此,包含了丰富信息的语义角色特征,将有助于区分不同实体间的关系类型,进而在一定程度上提高实体关系抽取结果。2.提出了基于特征选择的实体关系抽取方案。在文本分类问题中,特征空间维数一般能达到几万或者几十万维,这样的高维空间一方面将使得训练分类模型以及预测结果的时间开销大大提高,另一方面还可能由于引入了一些不必要的特征而使得抽取分类有所降低。针对上述问题,人们已经进行了长时间的研究,并且取得了一定成果。在基于特征向量的实体关系抽取问题中,也存在类似的问题,即过高的特征空间增加了关系抽取的时间开销,并降低了性能。考虑到文本分类和实体关系抽取问题的相似性,本文研究提出了一种实体关系抽取方案,该方案引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,有效的实现了实体关系抽取中的特征空间降维。
其他文献
随着我国信息化应用的逐步深入,越来越多领域内的主要业务都依赖于信息系统得以实施。信息系统风险评估及以其为基础和前提的信息系统安全工程越来越受到人们的重视,这在很大
随着网络上信息量的极速增长,Web上出现了大量的重复信息和垃圾信息,用户感觉很难快速找到自己真正需要的信息,通用搜索引擎面临着信息采集规模、更新速度和专业化需求等多方
H.264视频编码国际标准是由ITU-T的视频专家组和ISO/IEC的运动图像专家组共同组成的联合视频小组JVT (Joint Video Team)制定的。为了实现更高的编码效率,H.264标准采用了许
随着现代科学技术的发展,计算机科学与技术的进步,数据挖掘作为一门崭新的知识发现技术学科得到了快速的发展。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模
精品课程网站是展示精品课程教学成果的平台。它充分利用了网络的普及性、开放性、共享性、交互性等优势,将精品课程内容进行整合,最大限度地扩大了受众人群,在促进高等学校
演示系统是一种演示文稿图形程序,集制作、演示文稿为一体。在会议、展览和教学以及其它许多涉及演示需求的领域中,三维演示系统具有比二维演示系统更好的视觉效果,具有广泛
学位
The current Thai input methods cannot respond the desire to the input method for the future mobile phone and other device which will come. Almost current Thai i
底吹氩技术是精炼炉进行二次精炼的一项重要技术,对提高钢材的质量具有重要的意义。目前国内的底吹氩基本都是手动操作,工人凭借工作经验来控制流量,这样就增加了失误率并且
基于特征融合的目标识别技术是战场探测系统中的关键技术之一。本文主要针对红外图像进行研究,包括红外图像的预处理、目标特征的提取及融合、分类识别等关键技术。在本课题