中文命名实体识别及评测方法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:tonghe135612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别(Named Entity Reeognition, NER)的主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归类,主要包括人名、地名、组织机构名、时间表达式、日期、数字表达式等。命名实体识别是自然语言处理中的热点问题和基础性工作,对自然语言处理具有极其重要的意义,并被应用到自然语言处理的许多领域,如信息检索、信息抽取和机器翻译等。目前,命名实体识别主要采用基于规则的方法、基于统计的方法和基于规则和统计相结合的方法。   当前,中文命名实体识别(NER)研究的重点和难点是中文人名、地名和组织机构名。本文针对中文人名识别和评测进行了研究,具体工作主要集中在以下几个方面:   第一,针对中文人名用字相对整个汉字集相对集中的特点,通过真实人名语料库训练中文人名用字规律,得到每个字作为中文姓氏和人名概率,并根据在中文人名识别中的作用对姓氏用字和人名用字进行分类,计算句子中各个候选字段作为中文人名的概率值;通过标准标注语料库获得人名的上下文信息,结合候选字段的概率值对中文人名进行初筛选。   第二,充分挖掘中文人名与其上下文信息的关联程度以及中文人名内部之间关联程度,引入互信息对其进行定量的描述。对中文人名上下文互信息、中文人名内部互信息以及交叉潜在人名互信息的定义,评价函数的计算和过滤阈值的确定进行了详细的介绍,通过实验给出了各种情况下的过滤阈值。   第三,对命名实体识别评测的意义和当前中文人名识别评测方法的不足进行了比较详细的描述。针对当前评测方法的不足,提出了一种面向中文人名识别系统的自动评测方法。主要包括评测语料库的构建,评测文件的产生,识别结果的产生和评测结果的计算几个部分。   实验结果表明,本文所采用的中文人名识别方法,获得了比较理想的识别效果,所提出的中文人名识别评测方法能够克服当前人名识别评测方法中评测文件规模较小、固定不变和不可重复利用的缺点,能够正确、客观地对人名识别系统进行评测,对推动中文人名识别研究的发展具有重要意义。
其他文献
随着计算机制造技术和应用技术的不断发展,U盘、移动硬盘等移动存储设备的购置成本不断降低,由于其体积小、容量大、携带方便、不易损坏等特点而越来越受到大家的青睐。移动
学位
随着云计算的飞速发展及其许多方面的优势(如,花费的有效性、灵活性,以及可扩展性等等),越来越多的用户将他们的应用从本地移动到云计算中心。而为了满足众多用户各式各样的需求,云
随着人工智能、计算机图形学和软硬件技术的高速发展,计算机动画已经广泛应用于工程、科研、文娱等众多领域。中科院陆汝钤院士在90年代提出了动画自动生成技术(Automatic Gene
学位
手语是聋人之间使用的一种语言,是一种靠肢体、表情进行交流的特殊语言。它是聋人在日常工作、生活中与人交流、传达信息的最重要途径,然而现今社会中信息传播的主要方式建立
学位
机器翻译是利用计算机把一种自然源语言转变成另一种自然目标语言的过程。机器翻译基本分为基于规则的方法和基于语料库的方法,基于语料库的方法又可以分为基于统计的方法和
学位
随着Internet环境的不断复杂以及数量的不断增加,要求防火墙、VPN、PKI、入侵检测等技术更加的快速、高效。模式匹配能有效支持网络内容安全并提高网络设备的性能,是高速网络
本文以二维骨组织病理切片显微图像为研究对象,通过对目标图像进行分析与计算,可获得骨组织结构的计量参数,从而进一步得到骨组织形态结构变化状况。  计算机辅助识别切片的具
在电力系统中,许多功能都与时间密切相关,如果时钟不同步,系统时钟就会混乱,很多事情就会变得杂乱无章,严重的则导致整个电网瘫痪,因此电网系统中的时钟同步变得越来越重要,整个系统
安全组播是组播技术的研究热点之一,其核心就是组播密钥管理问题。组播密钥管理主要是为了解决安全组播中两个重要的难点—前向及后向安全,合法的组成员在退出组后不能再接收
如何在海量的XML数据中检索到人们需要的信息是当前学者研究的一个热点问题。结构连接是XML查询的核心操作,在对结构连接算法的改进方面有了大量的研究成果。为提高查询效率,