论文部分内容阅读
实体关系抽取是信息抽取的一个重要分支,它是指通过信息抽取技术,从自然文本抽取出实体及其之间的关系,即将非结构化数据变成半结构化数据或结构化数据的技术。随着互联网的日益普及和广泛应用,互联网数据急剧膨胀,海量无标签数据中富含大量命名实体及其关系属性,如,人物、机构以及他们之间的关系,如何从海量数据中高效、精准的抽取出这些实体及关系属性,成为目前实体关系抽取面临的重大挑战。近年来,消息理解会议(Message Understanding Conference,MUC)、自动内容抽取(Automatic Content Extraction,ACE)和文本分析会议(Text Analysis Conference,TAC)等评测的出现推动了文本关系抽取技术研究的发展。英语填空(English Slot Filling,ESF)任务,是文本分析会议(Text Analysis Conference,TAC)中知识库群体(Knowledge Based Population,KBP)的子任务。该任务主要是抽取人物和机构的特定的关系属性值,并将这些信息用于维基百科信息框的完善以及参考知识库的构建。本文对语义关系抽取的关键问题进行了研究,主要是针对以上填空任务所定义的关于人物的25中关系属性和组织机构的16种关系属性进行抽取。基于目前语料集只含有部分标签甚至无标签的特点,本文主要采用半监督的关系抽取算法-bootstrapping算法,将该任务往年实体及其关系属性值对作为种子,构建一种语义约束的-bootstrapping模型。本文研究的主要内容及其创新点如下:1.研究了关系抽取中约束关系语义的触发词特征,并提出一种基于激活力的触发词挖掘方法。该触发词挖掘方法通过统计触发词和关系实例之间的相互激活关系,定义了一种衡量触发词触发某种关系能力的新测度:触发力。本文将该方法应用于ESF任务中,对各个实体关系的触发词进行抽取,取得了良好的实验效果。2.研究了关系抽取中关系模式的表达方法,提出了一种新的模式表示方法:语义最短依存路径模式。语义最短依存路径采用从实体到其关系属性值的最短路径作为模式,并采用触发词作为该模式的语义约束。相比于传统关系模式表示方法,语义最短依存路径模式包含了更丰富的句法特征和语义特征,具有更强的关系指向性。3.研究了bootstrapping模型中用于衡量关系模式相似性的相似性测度,提出了一种自底向上的核函数测度。该测度假设距离关系属性值越近的依存特征的关系指向性越强,其权重越大;距离属性值越远的依存特征的权重越小,通过加权两个模式的各个特征之间的相似度来计算两个模式的相似度。4.研究了关系抽取中语义约束的bootstrapping模型的构建。对传统bootstrapping关系模型进行归纳总结,并定义了一种新的语义约束的bootstrapping关系抽取模型。本文定义了构建语义关系抽取模型的关键算法,并着重描述了如何对传统bootstrapping模型添加语义约束,从而抑制bootstrapping模型的语义漂移问题。最后,对全文的工作进行了总结,并对下一部分研究方向进行了展望。