论文部分内容阅读
实体关系是描述实体之间语义关系的重要途径。实体关系抽取是信息抽取任务中的重要环节,也有着广泛的应用前景。随着Web2.0的迅猛发展,人们对实体关系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取对用户有价值的信息。传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的。开放式实体关系抽取技术通过使用关系指示词描述关系的方法解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少。因此,针对不同的应用场景,本文提出了两种不同的开放式实体关系抽取方法,并且探索自动构建关系类型体系的相关方法。针对句子的开放式实体关系抽取问题,本文提出基于有指导的开放式实体关系抽取方法。首先,制定开放式实体关系抽取语料标注规范,并且构建开放式实体关系抽取语料库;然后,通过分析语料中的语言现象,制定了先识别实体对和先识别关系指示词两套方法,并且设计了泛化能力强的特征抽取方案。在开放式实体关系语料上测试的F值达到61.41%。针对互联网的开放式实体关系抽取问题,本文提出面向大规模网络文本的无指导开放式中文实体关系抽取(UnCORE:Unsupervised Chinese Open Entity RelationExtraction for the Web)方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对候选关系三元组进行过滤得到最终的关系三元组。在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率,满足实用要求。本文使用基于关系指示词聚类的方法自动构建关系类型体系。基于RNN-LM的关系指示词相似度计算方法和基于HowNet的关系指示词相似度计算方法,尝试使用近邻传播聚类算法和层次聚类算法对关系指示词进行聚类。在PER-PER实体对类型的关系指示词集合上实验,平均F值最高达到64.25%。最后,为了把本文的相关研究成果展示给研究人员,搭建了两个演示系统:面向句子的开放式实体关系抽取系统和开放式实体关系三元组查询系统。面向句子的开放式实体关系抽取系统从用户输入的自然语言文本中抽取关系三元组,并且把抽取结果以网页的形式展现。开放式实体关系三元组查询系统对从互联网文本中挖掘的大量关系三元组构建索引,用户输入查询的实体,系统返回该实体相关的关系三元组,并且以清晰直观的方式展示关系三元组。