基于混合层叠模型的命名实体识别研究

来源 :东北大学 | 被引量 : 5次 | 上传用户:justle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网、云计算、移动媒体和物联网等新兴网络的应用,搜索引擎、电子商务、社交网站等一系列互联网衍生应用迅速发展,使我们进入了大数据时代。在大量数据中并不是所有信息都是有用的,人们迫切需要一些自动化工具来协助进行处理和识别有价值的数据。命名实体识别技术正是在这个背景下产生的。其在信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理应用中发挥着重要作用。本文以大量真实论文数据为研究对象,针对命名实体中的人名、地名和机构名的识别对现有方法进行分析与研究。根据分析,本文提出了一种基于自适应方式的统计识别模型。该模型结合了隐马尔科夫模型和条件随机场模型的各自特点。首先利用抽样调查方法对测试语料进行抽样。然后利用隐马尔科夫和条件随机场两个统计模型分别对抽出的测试语料进行测试。在分析测试结果后,自适应地得到当前训练集和当前处理环境下识别某一类实体较为高效的统计识别模型。再用此高效的统计模型对整体测试语料进行基于统计的实体识别。接着,本文提出了一种基于改进的规则和统计方法相结合的实体识别模型。该模型在基于自适应的统计识别模型基础上增加了基于规则识别方法。此模型主要为了修正在基于统计模型识别中一些集中出现的识别错误。然后,本文提出了一种混合层叠的识别模型。该层叠模型共有三层,由最底层至高层分别是人名实体识别、地名实体识别和机构名实体识别。并且层叠模型的每一层都采用了本文提出的改进的规则和统计方法相结合的识别模型。识别中每一层都将本层识别出的识别结果添加到规则库中,供高层模型识别时使用。该层叠模型不仅结合了不同统计模型的识别优点,还充分利用了实体间互相存在嵌套的特点,大大提升了地名和机构名实体的识别准确率。最后,通过实验证明了本文提出的混合层叠的识别模型在准确率和召回率方面较原有实体识别模型有了显著的提高。并通过介绍基于本文提出的混合层叠识别模型在实际中的应用,体现了该识别模型具有一定的研究意义和实用价值。
其他文献
图像配准是遥感图像处理的重要内容之一,也是遥感图像后期处理工作的前提,其广泛应用于遥感数据分析,遥感图像变化检测,遥感影像融合等领域。特征角点提取是图像自动配准中最关键的步骤,所以本文主要针对特征角点提取方法和遥感图像自动配准方法开展研究,提出了相应的改进算法。针对原始Harris角点检测算法需要人为设置角点响应函数R的系数k值和筛选角点时非极大值抑制的阈值,以及角点定位不够准确,运行时间较长等问
交通拥堵是我国各大城市普遍面临的交通问题,通常由于各城市路段宽度、信号灯控制以及道路行驶规则不同,每个城市都会面临交通拥堵问题,并且发生的时间段会有所不同。该问题的控制与完全治理还没有得到彻底解决,依然影响着城市的交通出行。较传统的拥堵问题通常都呈现规律性,比如经常发生时间段在出行早晚高峰期间,因此,通过部分路段拥堵发生状况,借助道路及时间空间等特征可对城市道路交通拥堵状态进行预测,方便政府管理部
振动是一种普遍存在于自然界中的现象,无论是在工业生产还是日常生活中,振动产生的能量无处不在。压电式振动能量采集技术基于压电材料的正压电效应将振动产生的机械能转换为可储存的电能。在日常用的水流管道中普遍存在压力脉动的现象,将压力脉动所产生的振动能量收集转换成电能,为管道的检测及监测设备提供电源,既能节省能源,又可以提高相关设备的智能化水平。本文提出一种带有力学放大器的压电叠堆俘能器用于收集日常生活中
经济发展需要大量的电力作为能源支持,高效的能源生产对电力系统的电源容量规划、安全运行、节能效率等方面提出了更高的要求。近年来,弃水电量事件的发生,引起政府部门的关心和大众的关注。减少弃水电量,提高能源利用率,落实贯彻“节能减排”方针。故本文从理论方法与实际应用两方面着手,以智能算法的改进以及应用和模型创新为研究手段,围绕电力系统电力电量平衡模型和降低弃水电量这两方面展开研究。本文的主要研究内容及和
互联网的迅猛发展让人们获得了丰富多彩的内容信息。与此同时,在充斥着海量信息的互联网世界中获取到满足自身需求的信息变得越来越困难,“信息过载”问题越来越突出。搜索引
随着社会不断发展,越来越多的电子媒介被人们日常所接触。在这种互动与交融的大趋势中,对于满足人们交流的即时通讯应用工具显得格外重要。与此同时,随着移动互联网的普及以
随着我国交通运输业的迅速发展,机动车保有量不断增加,高速公路路面状况受到不同程度的损害,高速公路养护工程数量增多。高速公路养护期间,车道数量的减少造成占道养护作业区通行能力下降,再加之驾驶员在上游警告区减速换道等驾驶行为频繁,使得养护作业区交通环境复杂,极易发生交通拥堵和交通事故。警告区车辆速度差异过大是引起养护作业区交通事故最主要的原因之一,因此对养护作业区上游的警告区路段进行速度管理对提高高速
伴随着经济全球化的发展,英语作为交流工具显得尤为重要,由此英语教学日益受到重视。但是单纯的语言知识学习已不足以同不同国家的人们交流,需要加强语言知识所内含的文化知
随着经济快速发展以及信息化时代的到来,“越界”采访活动的频频发生成为新闻媒体行业面临的重要问题。如何予以妥善的管理媒体行业从业人员,建立合法合理的行业从业标准成为
随着信息技术的快速发展,课堂的教学模式变得多样化且不再局限于单一的传统课堂教学,智慧课堂的出现让课堂中的教学模式有突飞的进步。智慧课堂中的课堂行为、教学媒体和教师TPACK知识,与传统课堂中有哪些区别,仍有待研究。本研究中选取初中思想品德课为例,通过对六个不同课堂视频进行分析,对比传统的思想品德课堂与智慧课堂之间的差异。本研究使用TPACK编码量表,对视频分析后,进行数据挖掘,从课堂行为、教学媒体