基于统计的机器学习的中文命名实体识别

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:wa0001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度,命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自动识别具有重要的理论意义和实际意义。在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体:后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统计的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下几个方面:1. 汉字编码转换。汉字编码是汉语文本进入计算机处理的第一步。汉语由于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。2. 非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本进行了分句处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字等,以及汉字数字进行了识别。3. 基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练,统计出人名、地名的用字、用词和上下文特性,用基于统计的评价函数对侯选人基于统计的机器学习的中文命名实体识别名、地名进行打分,通过运用动态规划方法识别出人名、地名在文本中可能出现的位置。 4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方法不依赖于分词系统,可以对分词过后的语料进行处理,同时也对其它命名实体进行了识别。 5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板匹配的汉语机构名识别方法。 6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若干示例,说明命名实体识别在其中的作用。 目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理想的识别精度,所做的命名实体识别畏盖了命名实体的所有类别,并考虑到了汉语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。
其他文献
本文主要对分数阶混沌系统的同步方法进行研究。随着分数阶微积分理论在最近几十年的突破性发展以及整数阶混沌系统同步方法的研究,分数阶混沌系统的同步也取得了突破性的进
无线顺序控制系统的可靠性是控制系统性能分析中的重要指标,传统的可靠性分析方法主要有可靠性框图、故障树、状态转移图等,这些方法通常建模过程繁琐,并且难以对故障和维修
随着经济的快速发展,环境问题变得日益严峻,其中跟生活息息相关的水资源问题面临着污染的厄运,因此对于污水处理系统的研究具有越来越重要的意义。活性污泥法是污水处理最常见的
专家系统是近年来发展十分迅速的一门重要学科。用农业专家系统指导农业技术改造和支持农业的发展是当前一项备受关注的工作。我国农业的科技含量低,农业信息技术的基础比较
该论文针对JPEG2000压缩图像,以纹理特征提取、语义对象检测等为研究切入点,从检索和压缩相结合的角度研究基于小波压缩域的图像检索技术.主要研究成果包括:(1)研究了一种基
嵌入式系统技术是目前电子产品设计领域最为热门的技术之一。随着信息技术、网络技术和IC集成技术的高速发展,嵌入式系统的未来将向多媒体化和网络化方向发展,特别是与Intern
该文研究时滞反馈在混沌系统中的控制作用.首先,对近年来DFC技术的相关进展加以综述.归纳了控制器的设计方法;总结了DFC在不动点和不稳定周期轨道镇定方面的局限性和可控性研
随着信息、通信、网络和计算机的迅猛发展,计算机应用的领域、深度和广度也迅速扩大.面对快速变化的需求,如何高速、简捷地开发软件已成了急迫解决的问题,"敏捷软件开发(Agil
该文研究几类新型调度问题,主要在如下几个方面做了一些工作:(1)线性加工时间调度问题.(a)单机调度问题.对于一般模型中,工件具有平行链约束和有成组限制的极小化最大完工时
承载鞍安装在货车的滚动轴承和转向架侧架导框之间,承受和传递着各种载荷,在货车长期运行作用下,某些部位是很容易被磨损的,对车辆的动力学性能会产生较大的影响,因此需要对