论文部分内容阅读
自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。由于汉语的书写习惯,词与词之间的边界标志是隐含的,对于大多数汉语处理系统来讲,首先要做的工作就是分词。而在实际应用中,分词仍然受到诸多因素的制约。其中,命名实体是制约分词精度提高的最主要原因,其识别的好坏将直接影响分词的精度以及其后的词性标注和句法分析的精度。另外,命名实体识别的研究还有利于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。目前,国内外关于中文命名实体识别的研究仍然存在着识别的自动化程度不高,忽视了词法、句法及语义信息的作用等问题,并且大部分的研究只是针对人名的识别,而对于地名和机构名识别的研究还不够成熟。针对上述不足,本文以中文人名、译名、地名和机构名的识别为研究重点,提出了一种规则与统计相结合的一体化解决方案,该方案采用了双层命名实体识别模型来识别包括嵌套地名和机构名在内的多种命名实体。该双层命名实体识别模型的实现思想是:首先,在分词之前建立第一层命名实体识别模型,该模型由名实体检索算法实现,该算法利用命名实体的特征词,如人名的姓氏、地名的后缀词来引发命名实体的识别,并根据词法规则信息和命名实体的用字统计信息来识别部分命名实体;然后,在分词之后所得到的N个合法分词序列的基础上,引入第二层命名实体识别模型——基于隐马尔科夫的统计模型,该模型可以识别人名、译名、地名和机构名,并利用第一层模型所识别出来的命名实体识别嵌套的地名和机构名。本文重点讨论了如何在分词之前和分词之后分别设计和实现命名实体识别模型,并考虑将该双层模型结合到已建立的汉语句法分析系统的分词子系统中,既保证命名实体识别与并发检索-综合排歧分词子系统的兼容性,又能够较好地支持基于二元关系模型的汉语句法分析系统。在双层识别模型中,第一层模型能够很好地支持第二层模型识别出复杂结构的命名实体,二者相辅相成,很好地解决了由分词导致的命名实体误识别和漏识别问题。并且,为了保证隐马尔科夫模型识别命名实体的时效性,还采用了一种基于动态规划思想的过滤解码算法。通过对系统的测试发现,该模型识别命名实体的准确率和召回率都达到了90%以上,能够较好地保证汉语句法分析系统正确分析包含命名实体的句子的结构。因此,本文所提出的双层命名实体识别模型具有一定的研究意义和实用价值。