论文部分内容阅读
中文机构名的识别是中文信息处理领域的一项重要课题,也是命名实体识别研究的重要内容之一。中文机构名识别对自然语言处理意义重大:首先,包括中文机构名在内的命名实体识别是影响汉语自动分词效果的因素之一,因此提高中文机构名的准确率可以有效提高汉语自动分词的准确性;其次,中文机构名识别还是信息抽取、信息检索、机器翻译等自然语言处理应用研究的基础。
目前,对于中文机构名的识别主要采取的是基于统计的研究方法,这些研究大都取得了一定成果,但是由于将研究重点放在建立统计模型上,而不是从语言本身着眼,因此都无法在识别效果上取得真正的突破。
中文机构名识别的难点主要在于其结构的复杂性,但是通过研究可以发现,这些复杂的结构是有规律可循的,并可以将其总结成若干的固定模式。本文的研究正是通过标注机构名录,总结中文机构名的构成模式,从而制定出基于构成模式的识别方法。除此之外,研究中还考虑了中文机构名的使用特点,即通过标注语料总结出哪些词可以出现在中文机构名的前面。
本文首先从总体上介绍了利用构成模式,对中文机构名进行识别要解决哪些问题,需要完成哪些工作。
接下来通过标注语料和标注机构名录,来研究机构名的结构特点和使用特点,并总结出了企业、高校及科研机构、中小学及幼儿园、政府机构等几种类型的机构名构成模式,并建立了识别需要使用的知识库,包括前通名词表、前边界词表、构成模式库、词语知识库、地名知识库。
最后,设计并实现了一个基于构成模式的中文机构名自动识别程序,程序利用C#编写,采取面向对象的编写方法。并通过真实语料对系统进行评测,取得了较好的效果,其中准确率、召回率、F值分别达到了82.5%,83.7%和83.1%。这说明利用构成模式,对中文机构名进行识别是一种有效、可行的方法。