论文部分内容阅读
命名实体识别(NE)任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息,于是信息抽取技术应运而生。而命名实体识别是信息抽取技术中的重要组成部分,同时它还能应用于自动问答、机器翻译以及信息检索等自然语言处理领域,有助于它们的性能的提高。但是,由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文针对中文名命名实体识别中的人名、地名、机构名以及电子产品类的产品命名实体识别进行了研究,通过实验进行了验证分析,并提出其相关的应用。具体来说,本文的研究内容主要有以下几个方面:(1)提出基于规则及概率统计的中文人名命名实体双层识别方法,该方法首先基于中文人名体系实体知识库、人名实体词法规则、人名实体前后向边界条件完成人名的初次识别,再结合人名实体前后向边界特征,使用人名可信度统计识别模型,完成人名实体的最终识别。(2)提出基于规则及web检索的地名、机构名实体识别方法,该方法首先基于地名实体知识库、机构名实体知识库以及地名实体词法规则、机构名实体词法规则发现地名、机构名实体的触发位置,再使用基于web检索的方法完成地名、机构名实体的识别,其中,使用基于百度百科检索的方法进行地名识别,使用基于百度链接的检索统计的方法进行机构名识别,并提出基于规则的机构名简称识别方法。(3)完成电子产品类命名实体识别:产品名称、产品属性、产品属性值、产品评论等实体的识别,对于产品名称提出基于领域种子词自学习的产品名称自动识别方法;对于产品属性提出基于关联概率统计的产品属性自动识别方法;对于产品属性参数提出基于产品属性与产品属性单位的关联规则的识别方法;对于产品评论提出基于产品种子属性的汉语语法模式匹配方法。