论文部分内容阅读
命名实体是自然语言中承载信息的重要语言单位。中文命名实体识别是中文信息处理的关键技术之一,随着中文命名实体在各个领域的广泛应用,它既是一项基础性研究也是一项具有较高价值的应用研究。目前,在中文命名识别遇到问题主要是命名实体识别的众多影响因素导致具有复杂结构的命名实体识别效果差;尽管现有方法众多,但是中文命名实体识别仍没有达到较为理想的状态。目前对命名实体中人名、地名识别展开的研究比较成熟,而对机构名识别的研究不够理想。面对构造复杂的机构名获取特征,并运用这些特征来构建相应模型来解决机构名的识别问题以及对现有方法的不足进行改进是尤为重要的。首先,采用层叠式条件随机场模型方法,把处理文本看成一系列观察值,利用底层条件随机场模型对观察值做初步人名、地名识别,接着利用识别的结果传入到高层作为高层的观察值再进一步进行机构名识别;同时在层叠式条件随机场模型之间融合规则的方法来处理具有一定规律的特性的命名实体;在面对条件随机场模型训练耗费时间的问题上引入了一种快速的训练方法。然后,对复杂机构名的错误识别进行分析,指出了其影响因素,并针对其中因素之一(兼类型命名实体)进一步研究,运用了支持向量机模型在二值分类的优点对兼类型人名、地名进行了初步识别;并对简称难识别情况,这一机构名识别影响因素进行初步分析,并根据简称和全称的构词上下文构词特点一致的特性,给出一种以上下文构词组成的引导表结合全称匹配的方法对简称进行识别。最后,分别进行地名、机构名识别,兼类型人名地名以及简称识别等相关实验。针对地名、机构名从不同的语料规模、模板、词性特征等方面进行基于CRF模型的实验对比,给出了本文新方法和现有方法的比较:描述了训练和规则优化的实验结果以检验各优化方法的有效性;给出了兼类型人名、地名识别和简称识别实验结果,并给以初步分析。实验证明本文的方法是行之有效的,对中文信息处理有一定的意义。