基于Bootstrapping的交通工具名识别

来源 :山西大学 | 被引量 : 1次 | 上传用户:wuhanchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名实体识别是自然语言处理领域的研究热点之一,在信息抽取、自动问答等信息处理任务中都有十分重要的意义。随着现代科技的高速发展,除人名、地名、机构名之外,其它类别的名实体识别也成为研究热点。在ACE评测大纲中,名实体识别是五个识别任务中的重要一个,它是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然名实体识别技术正日趋成熟,然而从评测的结果来看,中文名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。交通工具名属于ACE实体类别的一类,因此交通工具名识别是ACE项目中的重要组成部分。目前,很多研究名实体识别都是研究多个名实体类别,专门针对交通工具名的研究并不多。对于名实体识别,最先遇到的困难就是获取大规模已标注语料,这给我们的研究带来了一定困难。另外,交通工具名自身的一些特点也是我们在研究过程中需要考虑的关键问题。本文的主要工作是研究交通工具名识别的方法,在此基础上建立了一个基于Bootstrapping的交通工具名识别系统,经过实验论证,此方法取得效果较好。本文主要研究了以下几方面的内容:1.通过对真实语料的统计,深入分析了交通工具名的内部特征和上下文环境特征,提出了适合交通工具名的特征集,并通过实验进行特征选择,确定了有效特征。2.将信息熵增益理论运用到模式和样例的选择中,这样避免了以往用公式选择时的局限性,可以判断每一个模式或者样例对实验结果的影响程度,从而判断其重要性,为Bootstrapping的有效运行提供保证。3.通过相似度计算来识别交通工具名,避免了模式的精确匹配。适应了自然语言灵活多变的特点。4.基于Bootstrapping算法设计实现了一个交通工具名识别系统。将交通工具名的特征信息和待识别实例分别表示为类特征向量和实例特征向量,通过计算它们的相似度来判断待识别实例是否属于交通工具名,在类特征向量的获取过程中采用Bootstrapping算法。我们对ACE语料32万字的文本进行了封闭测试和开放测试,实验结果表明该方法识别交通工具名的召回率达到85.9%,准确率达到73.5%,从而证明基于Bootstrapping的交通工具名识别方法的有效性。
其他文献
中医学作为有中国特色的传统医学具有重要的社会价值。中医医案是中医临床思维活动和辨证论治过程的记录,是中医理法方药综合应用的具体反映形式,尤其是经过多年临床实践、具有
近年来利用机器视觉实现自动驾驶成为视觉应用的研究热点之一。在地下矿井特殊环境下,GPS和微蜂窝难以覆盖,无线定位方式稳定性稍差,受噪声信号干扰大,传统航推测迹方法也存在累
由于信息技术的发展和日趋激烈的商业竞争,独立、零散的办公自动化和计算机应用难以满足用户的需求,而是需要综合的、集成化的解决方案。作为一种对常规性事务进行管理、集成的
过程控制系统PCS(Process Control System)位于ISO的企业自动化模型中的第二级,位于第三级的制造执行系统与底层的基础控制系统之间,在控制生产线的生产状态,提高企业的信息化程
中医学作为中国特色的传统医学具有重要的社会价值,然而中医知识体系的复杂结构使得中医传承在知识共享、知识交换以及知识融合等方面存在较大的障碍。而中医医案记录了中医诊
随着计算机技术的广泛应用,计算机安全变得越来越重要。处理器作为计算机系统的核心部件,处理器安全是系统安全的基础,而传统的处理器结构设计中,缺乏有效的安全保护机制。本文针
面向网络协同的多无人机编队飞行,是通过通信网络协调多架无人机在空中按照一定的队形飞行并协同一致地完成作业任务。近年来,面向网络协同的多无人机编队飞行日益受到关注,例如
随着计算机技术的发展,用户可访问的数据资源的结构日益复杂、规模日益增大,大型信息系统向着多应用和多用户的方向不断发展。系统面临的一个难题就是日益复杂的数据资源的安全
随着信息社会的飞速发展,信息的安全性越来越受到人们的关注。传统的软件加密技术已经越来越不能满足信息安全对运算速度和系统安全性的需求。在信息安全系统中,普遍趋于采用硬
图像分割是一种重要的图像处理技术,在理论研究和实际应用中都得到了人们的广泛重视,是进行图像分析的前提和关键之一。因此,图像分割的研究具有重要的意义。   遗传算法是一