基于字符信息相关性与多语义特征的命名实体识别研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:litongyi88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务的目的在于高效地从文本信息中抽取实体信息,是自然语言处理的基础性工作,但受制于数据中未登录词的影响,导致命名实体识别的效果欠佳,造成数据信息的丢失与遗漏,并影响到关系抽取等自然语言处理的上层任务,因此为保证实体信息的有效识别与提取,命名实体识别的研究工作变得尤为重要。现有研究主要围绕深度学习技术展开,采用深度学习技术能够在输入输出间建立映射关系,从文本数据中得到更加低维且信息量丰富的特征,并通过分类器得到最终的输出向量,而无需借助过于复杂的人工特征工程。但尽管基于深度学习的命名实体识别技术在近些年取得了许多优秀的成果,其中也存在着一定程度的不足,如模型过于注重局部特征而忽视了全局特征、无法处理非线性的复杂数据以及语料中未登录词的影响,如何能构造一个高性能的命名实体识别模型是一个非常值得研究的问题。为此,本文提出了一种融合统计学习与深度学习的命名实体识别方法,从未登录词与多语义信息两个方面开展研究,主要创新点如下:(1)针对现有分词工具在处理未登录词时不仅识别效果欠佳,且存在识别时间较长、复杂度较高等问题。研究了未登录词的构词特征,将成词概率信息与双数组Trie树相结合,构建了混合信息双数组Trie树的未登录词动态识别模型,提出一种解决文本数据中存在未登录词问题的方法。并对语料中的未登录词进行识别,量化实验分析,证明该方法的有效性,提高了未登录词识别的精度和速度,减少所消耗的空间。(2)鉴于基础的深度学习模型获取特征维度较为单一,输入特征信息不够全面等问题,本文提出一种深度神经网络的命名实体识别方法,通过获取非线性复杂语义的特征进行命名实体识别任务。利用BiLSTM模型学习得到上下文特征向量,并将字符邻接矩阵及特征矩阵馈入GCN得到全局语义特征向量,构建了一种包含多维语义信息的命名实体识别模型。通过对比实验,验证了该模型对提升命名实体识别的效果,有效地提升了识别结果的准确率。
其他文献
近年来,随着社会各领域资源需求的迅猛发展,让信息技术的发展变得如火如荼。信息技术的飞跃发展,导致大量无规律结构的信息以文本形式展现在各领域。过量无结构的文本信息没有对应的技术进行处理与利用,导致流失过多的知识与价值,所以信息抽取技术应运而生。信息抽取是利用一定的计算机技术,从文本、语音、图像、视频等数据中找到他们传达信息的结构和方式,进行自动抽取信息并将其结构化显现出来的过程,而事件抽取,则是信息
Universum学习是一种建立在Universum数据上的机器学习模型。Universum数据指的是一种与二分类问题的数据处于同一域,但却不属于其中任何一个类别的数据。Universum数据含有该领域的先验知识,会对学习算法的分类性能起到重要的作用。因此,如何选取合适的Universum数据参与学习是Universum学习中的一个关键点。另外,为了建立较为准确的机器学习模型,传统的机器学习算法都
随着现代信息科技的不断进步,数据的维度急剧增长,使得人们难以把握数据的本质,进而对数据加以利用,而在特征选择、迁移学习等领域,受图嵌入思想启发,所构建的模型往往能取得较好的效果。因此,基于图嵌入并结合其他方法,挖掘数据的潜在几何结构,并获取关键特征,达到降维的目的,将是一个可行的研究思路。具体地,本文基于图嵌入的两种方式,即自适应图嵌入和预构建图嵌入,提出两个新的无监督特征选择模型,即联合图嵌入与
随着互联网的普及,传统的线下购物方式不再是购物的主体,线上购物平台不断发展。在这个背景下,虚拟换衣技术应运而生,人们足不出户就可以在虚拟平台上体验到不同服装的试穿效果。虽然虚拟换衣算法研究在3D建模和图像领域已经取得了巨大的进步,但在视频领域还几乎是处于空白。视频在互联网中还有很大的用户需求和商业潜能,将虚拟换衣算法和视频领域结合起来成了亟待解决的问题,本文具有非常重要的理论意义和应用价值。本文具
现如今的药物研发工程对资金、时间的花销和人才技术要求都很高,由于一个实验室的经费和人员往往有限,人们开始寻找一种门槛更低的研究方法,因此药物重定位这个可以使得制药成本和周期缩减的方法获得了广泛关注。随着近年来相关研究的积累以及药物数据库的开放使用,基于药物与疾病的异构数据的药物重定位已经成为当前的研究热点。虽然研究人员已经提出了很多不同的计算方法,但现有的计算方法大都存在着仅使用单一的相似性、不能
云存储服务以其存储方便、价格低廉等特点,吸引了大量的用户,而众多云存储用户上传的海量数据中存在许多重复数据。为了节约存储成本、减少网络带宽消耗,云存储服务提供商(CSP)会采用数据去重技术。而用户为了保护隐私数据不被他人窃取,一般会对数据进行加密,再上传至云端进行存储。由于加密密钥的不同,使得同一份文件加密后得到的密文也不一样,所以传统的重复数据删除技术往往不适合云存储数据去重。同时由于云存储用户
在计算机视觉领域中,多目标跟踪是一个研究的热点方向,具有重大的学术价值。例如智慧城市中的全自动、全天候、实时监控的智能视频系统。在传统视频监控系统中,对于多目标跟踪,存在耗费大量人力资源和不能实时处理等问题,需要采用计算机视觉技术对监控画面进行智能分析与处理。基于深度学习的多目标跟踪技术是一种高效的端到端学习框架,深度神经网络模型是一种用于捕捉与目标跟踪位置强相关信息的有效方法。在实际复杂场景,如
建筑机器人已有一定程度的成熟技术及工程应用,但现有建筑机器人功能单一,对工程场景的适应性与标准化程度不高,具有通用底盘的多功能建筑机器人标准化研究与应用不足。还具有基于施工环境下的仿真设计方法研究不足,机器人智能控制与基于BIM技术的数据驱动方法结合不足等问题。从工业机器人向建筑机器人发展,机器人体系设计应满足施工状况要求。BIM模型是工程信息化载体,结合BIM技术研究机器人驱动方法有利于推进建筑
智能系统从人类演示视频中理解人类的动作并学习新技能的任务是设计自主工作机器人的一个新趋势。人类可以直接通过观察他人的行为来理解动作和实现模仿,然而,让机器人能够根据对人类活动的观察来执行相应的动作仍然是机器人技术的一大挑战。随着智能机器人的普及,市场对能够理解人类演示并执行各种任务的机器人系统的需求也会越来越大。因此,在探索如何提高机器人智能系统水平的道路中,构建从视频中学习机器人操纵指令的框架具
近年来的研究表明,长非编码RNA(long noncoding RNA,lncRNA)在很多生物过程中发挥着特别关键的作用,几乎涉及到生物体的全部生物学过程,并且许多复杂疾病的发生发展与lncRNA的突变或者错误调节是有关的,但是两者之间存在的关系还没有完全掌握。虽然传统的生物实验方法可以准确地鉴定lncRNA与疾病之间存在的关系,但是这种方法显然会浪费大量的人力、时间以及经济成本。因此,利用已知