基于条件随机场的实体关系抽取的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:looksky1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会网络、电子商务应用的不断深入,人们力求使网络信息的搜索、浏览更加人性化和智能化。传统的返回Web文档的检索方法开始无法满足越来越复杂的检索需求,面向实体的检索成为了研究热点。网络上含有大量的用自然语言表达的信息,机器理解这种非结构化的文本非常困难,信息抽取领域提供了一种思想把非结构文本内容映射到结构化的知识库中。从非结构的web文本中更好的识别出实体和抽取出实体间的关系,对促进对Web信息的掌握和理解,为用户提供更满意的服务都非常重要。  传统的关系抽取系统是针对特定领域的文本获得某种特定的关系。一种目标关系提供给系统通常伴随着相应的抽取模板或者是手工标注的例子,如果要抽取一种新的关系则需要建立新的模板或者例子。这种抽取范例面对web时遭遇到了巨大挑战,web含有的信息量巨大,包含的关系数目众多并且很多是未知的。所以本文使用开放式的抽取范例。本文设计实现了一个开放式抽取系统OIES,无需任何手工劳动,系统可以从训练语料库中自动学习到一个基于条件随机场的抽取器,然后抽取出文档中句子中存在的可能的关系。本文深入研究了模板的选择和对抽取出关系的概率评价,OIES通过解决l1范式惩罚最大似然估计来进行模板选择,使用URN模型对抽取出来的关系进行评价,从而提升抽取出来的关系的质量。  实验结果显示开放式关系抽取系统OIES可以很好的面对web级别语料库的挑战,抽取出关系的数量和质量相较之前的系统都有性能优势。
其他文献
该文概括论述了KDD的意义及一般过程;介绍了相联规则的问题,论述了发现相联规则的一般过程,以及目前的主要算法的效率及问题.对约束性相联规则的发现做了比较深入的探讨.提出
检测技术的快速发展,出现了许多新的问题有待研究,有很多是传统的方法难以解决的问题。由于检测技术在现代社会的重要性,人们在不断探索研究新的检测技术。 可拓学是一门新学
该文给出了一个新的串匹配算法一ZAO.它利用BM算法中依据d函数来右移模式距离大小的特点,在一定条件下,将模式分解成具有一定性质的两个子串,通过子模式各自的性质及相互间的
随着电子信息技术的飞速发展,部队将是信息化部队,战场将是信息化战场,一切作战活动及其效能都是建立在信息基础之上的。而当前战场普遍使用的移动自组网和无线传感器网络受制于
该文讨论的是一个网上交互应签系统的设计与实现.它是网上训练(WEB BASED TRAINING)的一个特定应用.它采用了TANGO协同工作环境,在TANGO API基础上,运用多媒体技术在INTERNET
该文对计算机技术在审计领域的应用的各个方面作了一个全面的考察,在此基础上提出了一个完整的计算机辅助审计系统的模型.该模型主要包括数据处理-AuditData文档处理-AuditDo
该文主要研究了基于数据手套的中国手语识别的各种算法.研究内容主要包括:1.基本手势的分割算法;2.手语模板训练算法的研究与实现;3.孤立手语词的识别;4.连续手语识别.
随着应用问题规模的扩大和复杂,传统的并发程序设计方法由于存在任务分解的随意性和控制的复杂性等问题,已经不能满足并发应用程序开发的需要.面向对象方法以问题为中心,强调
随着互联网技术的发展,网上文档资源的日益增加,面对海量的信息,人们很难迅速准确的找到真正需要的资源。如何对浩如烟海的文献、资料进行自动分类、组织和管理,已经成为一个
该文主要介绍了青鸟可重定目标编码器的设计思想、总体结构、工作流程,及其主要技术特点;着重论述了青鸟可重定目标编码器代码生成器结构的设计;并且给出了利用青鸟可重定目