基于类比学习的人名识别方法研究

被引量 : 7次 | 上传用户:LVBIN0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人们利用计算机技术自动处理海量信息的大背景下,信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。人名和其它命名实体一样,具有开放性和发展性的特点,而且表现形式极其丰富,给其识别带来了一定的困难。包括人名识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。人名识别作为命名实体识别的子任务,是自然语言处理领域的一个重要而困难的问题。在本文中,我们以人名(包括汉族人名和译名)为研究对象,提出了一种基于类比学习的人名识别方法。该方法通过用人名实例描述语言现象,尝试性的将类比学习的方法应用于人名识别问题,取得了较好的效果。主要的研究内容有以下几方面:1.通过对真实语料的统计,深入分析了人名的内部特征和上下文环境特征,为类比学习方法应用到人名识别问题建立了语言学基础。同时,建立了基于真实语料的人名资源库,包括姓氏用字库、名字用字库、译名用字库和特征词库等。此外,还使用了《知网》作为语义资源,对特征词进行了语义扩充。2.建立了人名实例库。在实例向量化的过程中,不仅考虑了人名的内部结构,而且加入了人名上下文环境信息,即实例向量中包含了人名的内部结构和上下文结构,较好地综合利用了各种启发信息。3.按照类比学习识别人名的策略,设计实现了一个人名识别实验系统。通过计算实例间的相似度,选择最为相似的实例,进行类比匹配,从而识别人名。4.提出了一种改进的实例相似度计算方法。我们针对人名识别过程中的不同阶段,提出了两个层次的实例相似度计算方法。在实例库的构建阶段,实例相似度以公共子序列来衡量;在人名识别阶段,不仅考虑了公共子序列,而且加入了结构信息。我们从人民日报语料中选取50万字的文本进行开放测试,其实验结果表明该方法识别人名的召回率达到90.86%,准确率达到86.45%,从而证明基于类比学习的人名识别方法的有效性。
其他文献
<正>一、云计算的基本概念云计算和物联网是当今世界最前沿的信息化产业技术。云计算由美国Google公司提出,是一种服务的交付和使用模式,客户可以通过网络按需、并以易扩展的
中国风险投资业在二十世纪八十年代兴起,经历了九十年代的大起大落,如何在二十一世纪理性地发展,对促进新经济的形成具有重要的意义。本文系统研究了风险投资各个阶段的预警
传统的中职英语教学模式一直存在着许多问题,以多媒体技术和互联网技术为代表的新媒体教学手段使得中职英语传统教学的弊端得以改善,新媒体教学手段为学生提供了更多样性的信息
针对盘片轴一体化转子系统的大规模网格问题,提出用于该类结构动力分析的预应力模态综合法.对前两级整体叶盘进行静、动频分析,给出了影响一体化结构动力分析精度的模态截断数的
1999年,国务院发布《关于深化教育改革,全面推进素质教育的决定》,提出要在新的历史形势下,“调整和改革课程体系、结构、内容,建立新的基础教育课程体系。”随后,经国务院批
提出一种新的用于多径信道无线通信系统的流式控制介质访问机制.这种机制可在无线链路所有端点上采用数字化自适应阵列,进而可在多个信道中同时传输多个独立的数据流.通过与
目的探讨昼夜节律CLOCK基因多态性与心理障碍的关系。方法以新疆克拉玛依市石油管理局油田作业工人为研究对象,采用SCL-90问卷进行心理状况调查,按照性别、年龄1∶1匹配,最终
西部地区是我国进入21世纪以来的重点开发区域,经济总量占全国的比重越发提高,但其转型升级任务在经济新常态背景下依然严峻。而近年来西部地区金融业获得了快速发展,国务院及相关职能部门相也继出台了多项关于金融支持经济转型升级的政策文件,更强化与指导了金融发展对经济结构转型升级的促进作用。因此,面对西部地区产业转型升级的现实背景,研究金融业发展对产业转型升级的促进作用及其具体传导路径,具有十分重要的现实意
介绍了连续无针电纺纳米纤维的生产装置及其工作原理,介绍了该装置的纤维发生技术、纤维收集技术,分析了连续无针电纺纳米纤维的技术特点。
随着我国社会经济不断发展,居民日常生活用电量以及城市工业生产用电量急剧增加,电力系统中自动化技术和继电保护技术被广泛应用,加强了我国电力系统的安全性及稳定性,有效提