现代汉语文本中人与机构间任职关系的信息抽取

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:rowhwafo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是自然语言处理的一个重要应用领域,命名实体间语义关系的信息抽取是当前信息抽取研究的一个热点。   在实体关系的信息抽取中,受MUC和ACE评测会议的影响,人们对关系任务的定义多是预置谓词的二元关系。本文从现代汉语中语言运用的实际和信息抽取现实需求出发,定义了以职务类名词为关系谓词的人与机构间任职关系的信息抽取任务。作为关系谓词的职务词是不确定的,因此职务词的识别是任职关系抽取的基础。   在信息抽取方法上,本文以模式匹配为基本方法。在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC(Hierarchical Network of Concepts)理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。   本文的工作以人名和机构名等命名实体已经识别为前提,以职务词和任职动词等词典资源的建设为基础,在对职务类名词进行现场识别后,根据人名、机构名和职务词在句子或句群中的表述模式进行任职关系的抽取。总起来说,本文的工作包括以下三个方面:   一是词典资源的建设。本文重点建立了职务词词典和任职动词词典等专用词典。对职务词词典,我们以领域和语用为原则收录词语,重点描写了与职务词识别和任职关系抽取相关的职务词的类别等方面的信息。任职动词词典重点描写了任职动词所形成的句子的句法语义结构,以服务于任职关系的识别。   二是职务词的自动识别。职务词具有组合能产性,不可能全部收入静态词表,因此需要动态地进行自动识别。我们建立了表达职务的基本词语库,研究了职务词的组合规律,实现了对职务词的自动识别。   三是任职关系的抽取。通过对语料的分析,把任职关系的表达模式分为两类:一是不含任职动词的,二是以任职动词为中心的。我们研究总结了任职关系表达的基本模式及其变化模式,据此实现任职关系的信息抽取。   本文以C#语言实现了任职关系抽取系统,其中对任职关系模式的表示和匹配是以微软.NET框架类库的正则表达式类为基础来实现的。   本文定义了具体的关系抽取任务,以构筑识别模式和抽取模式为基础,实现了对现代汉语文本中任职关系信息的抽取,系统的召回率和正确率分别为95.8%和83.4%。为进一步提高系统性能,本文计划今后在两个方面继续努力:一是研究人名和机构名识别与任职关系提取的同步进行;二是研究如何进一步把HNC的理论和技术应用于实体及其关系的识别。
其他文献
本文梳理总结近年来宿州市农田水利建设及农田水利管理现状,分析农田水利发展存在的问题及其原因,从农田水利投入、建设、管理、运行等方面提出加快宿州市农田水利发展的对策
近年来,阜阳市加快实施农村饮水安全工程建设,至2017年解决了885万农村居民的饮水安全问题,实现了全市农村自来水全覆盖.本文总结阜阳市农村饮水安全工程建设管理成效及经验,
作为开口交际的第一关,恰当的称谓是使言语交往得以顺利进行的重要条件,不恰当的称谓则可能使言语交往发生障碍。自上世纪80年代以来,国内关于汉语称谓语的研究逐渐活跃,研究
学位
明中后期至清初的世情小说中塑造了一系列生动而丰富的女性形象,而婢女是其中的一个特殊而具有广阔的社会内涵的下层女性群体。她们与社会各阶层都有着复杂的联系。对婢女形象
学位
由于压裂工艺的限制和复杂的地层情况,水平井压裂所形成的裂缝长度和裂缝方位等不尽相同,增加了水平井产量预测的困难.在经典渗流模型的基础上,利用无量纲化处理、复位势理论
2016年梅雨期间,丰乐河流域遭遇强暴雨袭击,发生了超历史洪水,通过对本次暴雨洪水的特性分析,可以更好地了解丰乐河流洪水形成的原因及特性,为将来洪水监测、预报,以及流域规
本文从文献和理论两方面对桐城派的古文选本进行研究。   首先在对桐城派作出界定的基础上,梳理了桐城派的传承关系,力图呈现出其发展脉络。考察了桐城派古文选本的版本和
学位
目的建立阪崎肠杆菌和沙门菌的多重PCR检测方法。方法针对阪崎肠杆菌外膜蛋白A(ompA)基因和沙门菌属侵袭性抗原保守基因(invA)基因设计引物,建立其多重PCR检测方法,并对反应
本文论述了中唐时期门第、才学观念的发展变化及其相互对立、又彼此融合的复杂过程,探讨了其对中唐士人的精神风貌、知识结构、学术思想以及文学创作的影响。   第一章考察
学位