论文部分内容阅读
信息抽取是自然语言处理的一个重要应用领域,命名实体间语义关系的信息抽取是当前信息抽取研究的一个热点。
在实体关系的信息抽取中,受MUC和ACE评测会议的影响,人们对关系任务的定义多是预置谓词的二元关系。本文从现代汉语中语言运用的实际和信息抽取现实需求出发,定义了以职务类名词为关系谓词的人与机构间任职关系的信息抽取任务。作为关系谓词的职务词是不确定的,因此职务词的识别是任职关系抽取的基础。
在信息抽取方法上,本文以模式匹配为基本方法。在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC(Hierarchical Network of Concepts)理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。
本文的工作以人名和机构名等命名实体已经识别为前提,以职务词和任职动词等词典资源的建设为基础,在对职务类名词进行现场识别后,根据人名、机构名和职务词在句子或句群中的表述模式进行任职关系的抽取。总起来说,本文的工作包括以下三个方面:
一是词典资源的建设。本文重点建立了职务词词典和任职动词词典等专用词典。对职务词词典,我们以领域和语用为原则收录词语,重点描写了与职务词识别和任职关系抽取相关的职务词的类别等方面的信息。任职动词词典重点描写了任职动词所形成的句子的句法语义结构,以服务于任职关系的识别。
二是职务词的自动识别。职务词具有组合能产性,不可能全部收入静态词表,因此需要动态地进行自动识别。我们建立了表达职务的基本词语库,研究了职务词的组合规律,实现了对职务词的自动识别。
三是任职关系的抽取。通过对语料的分析,把任职关系的表达模式分为两类:一是不含任职动词的,二是以任职动词为中心的。我们研究总结了任职关系表达的基本模式及其变化模式,据此实现任职关系的信息抽取。
本文以C#语言实现了任职关系抽取系统,其中对任职关系模式的表示和匹配是以微软.NET框架类库的正则表达式类为基础来实现的。
本文定义了具体的关系抽取任务,以构筑识别模式和抽取模式为基础,实现了对现代汉语文本中任职关系信息的抽取,系统的召回率和正确率分别为95.8%和83.4%。为进一步提高系统性能,本文计划今后在两个方面继续努力:一是研究人名和机构名识别与任职关系提取的同步进行;二是研究如何进一步把HNC的理论和技术应用于实体及其关系的识别。