论文部分内容阅读
计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度,命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自动识别具有重要的理论意义和实际意义。在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体:后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统计的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下几个方面:1. 汉字编码转换。汉字编码是汉语文本进入计算机处理的第一步。汉语由于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。2. 非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本进行了分句处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字等,以及汉字数字进行了识别。3. 基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练,统计出人名、地名的用字、用词和上下文特性,用基于统计的评价函数对侯选人基于统计的机器学习的中文命名实体识别名、地名进行打分,通过运用动态规划方法识别出人名、地名在文本中可能出现的位置。 4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方法不依赖于分词系统,可以对分词过后的语料进行处理,同时也对其它命名实体进行了识别。 5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板匹配的汉语机构名识别方法。 6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若干示例,说明命名实体识别在其中的作用。 目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理想的识别精度,所做的命名实体识别畏盖了命名实体的所有类别,并考虑到了汉语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。