论文部分内容阅读
近年来,命名实体识别(NER)技术作为信息抽取的子领域,在自然语言处理领域中变得越来越重要了。命名实体是文本处理中主要信息元素之一,是正确理解文本的主要因素。维吾尔语命名实体识别技术是,在正确的理解维吾尔文本的基础上,将文本里常见的命名实体-人名,地名,组织名,时间,日期等实体识别出来,并按照其类型进行归类。命名实体识别是自然语言处理中必备的基础性工作之一,并同时能在很多技术应用中的关键技术,如:信息抽取,文字转换,信息检索,机器翻译等方面有很广的应用价值。所以,维吾尔语命名实体自动识别技术研究在自然语言处理领域中有很大的理论性意义和实践性价值。本文,最先回顾了命名实体识别技术在国内外的目前研究现状,并探讨了对命名实体识别技术所采用的各种方法。详细的介绍了基于条件随机场(CRF)的维吾尔人名识别方法和基于规则的地名识别方法。本论文完成的工作为以下:(1)详细介绍了条件随机场模型,并讨论了本模型比其他机器学习模型的特点。条件随机场模型是当前比较优秀的条件概率模型,它即克服了生成模型的独立性假设,同时避免了有向图模型的标记偏执问题,并具有这两种模型的优点。(2)研究并实现了基于条件随机场的维吾尔人名识别。首先,对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点;完成了条件随机场模型建立和语料库建设的维吾尔文本设计;实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征的基于条件随机场的维吾尔语人名识别方法,并用贪婪算法实现了最佳特征模板的选取。(3)本文更进一步探讨了维吾尔语中的地名内部结构特征,研究了基于规则的地名识别方法并且利用Visual C++编程工具实现了识别算法,也取得了初步的识别效率。本文的研究结果还可以用于维吾尔地名和机构名等其它命名实体的识别。