基于深度神经网络的生物医学命名实体识别方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:barbaraxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物医学技术和计算机技术的飞速发展,产生了海量的生物医学文本数据,如何有效处理和充分利用这些数据已经成为一个重要问题。生物医学命名实体识别是生物医学文本信息处理的一项重要任务,并对其下游任务如实体关系抽取、问答系统、文档分类等产生重要影响。生物医学命名实体识别旨在识别生物医学文本中的疾病、基因、化学物质等具有生物医学意义的实体并标记其类型。与通用领域的命名实体识别任务相比,在生物医学领域开展命名实体识别任务仍然存在诸多难点。生物医学文本数据涵盖的化学物质、基因、蛋白质等生物医学实体通常由长序列组成,不仅数量繁多而且结构复杂。此外,在待识别的生物医学实体中普遍存在缩写、别称、嵌套、大小写混合、一词多义等命名不规范现象,导致现有工作仅依赖单一的深度学习模型(例如,卷积神经网络、双向门控循环单元或注意力机制)难以学习生物医学文本数据的特征表示。针对以上问题,本文对基于深度神经网络的生物医学命名实体识别方法进行了系统的研究,主要研究内容包含以下几点:(1)本文提出一种基于组合特征嵌入和多任务学习的生物医学命名实体识别模型(BC_MT_Bio NER)。该模型主要包括共享层和任务特定层,其中共享层将Bio BERT生成的上下文单词嵌入向量与Char CNN生成的字符嵌入向量融合,获得具有单词和字符双重特征的向量表示信息,有效解决了现有方法对生物医学文本数据语义特征提取不充分的问题;此外,在任务特定层采用具有全局注意力机制的Bi GRU来捕获相邻字符和句子上下文信息,最后利用CRF对序列标签进行预测。模型将15个生物医学数据集中的每个数据集都视为一个独立的任务,对不同任务都采用一个特定的模块,通过联合训练所有数据集使模型获取不同任务之间的共同特征,以提升模型的普适性。实验结果表明,BC_MT_Bio NER模型在15个常用生物医学数据集上的平均F1值最高可达85.51%。(2)本文提出一种联合生物医学命名实体识别和规范化的深度神经网络框架(BCBA_GS_Bio NER)。在生物医学领域联合建模生物医学命名实体识别任务和生物医学命名实体规范化任务,充分利用不同任务之间的相互作用,在降低错误传播问题的同时也有效地利用生物医学命名实体规范化任务提升了生物医学命名实体识别任务的准确率。该框架主要包括识别模块、查询模块、融合模块。在识别模块,使用预训练语言模型Bio BERT替代传统的静态词向量表示方法,动态的生成上下文单词嵌入向量,并与Char CNN生成的字符嵌入向量进行拼接后再输入Bi LSTM中,以获取更充分地语义信息;在查询模块,使用Bio BERT生成标准实体的特征向量,利用注意力机制计算输入文本的生物医学实体和标准实体之间的相关性;在融合模块,使用门控机制融合识别模块和查询模块输出的特征信息,最后通过Softmax分类器输出标准实体在文本数据中所对应的生物医学实体标签。在NCBI和BC5CDR数据集上对BCBA_GS_Bio NER模型进行了实验,实验结果表明该模型性能优于对比模型。
其他文献
沪港通和深港通是我国证券市场开放的里程碑事件,研究借道沪深股通投资A股的北上资金,对我国资本市场开放进程尤为有意义。本文理论研究与实证研究相结合,将统计检验、事件研究法、线性回归、多因子模型运用于研究北上资金入市特征,及其持仓股票定价的有效性。通过对2014年11月17日以来沪深股通进行指数分析发现,在样本时期内,北上投资者具备择时能力,他们在指数相对较低的区间买入,在指数相对较高的区间卖出,证金
学位
自从人们进入信息化时代以来,互联网一直在潜移默化地影响着人们的日常生活。电子产品在日常生活中随处可见,微博、淘宝等网络平台为人们获取外界信息提供了便利,同时也产生了大量对时事以及产品的评论文本。文本情感分析是挖掘评论文本表达的情感信息,挖掘其中蕴含的情感信息可以为消费者提供决策支持,有助于商家及时获取反馈信息并对产品进行完善升级,同时有助于政府正确引导舆情风向。因此文本情感分析具有巨大的实用价值。
学位
受互联网技术的覆盖以及移动端设备激增的影响,人工智能逐渐渗透到人们商业生活的方方面面。对话系统作为人工智能领域下的重要产物,得益于数据的支持以及深度学习技术的进步,也逐渐向更人性化方面发展。对话系统从特定领域下的任务型逐渐发展到开放领域下的聊天型,从固定规则下的检索型发展为Seq2Seq框架下对话生成型。综合国内外研究现状,基于生成的对话系统能够脱离规则的束缚生成数据库中没有但合理的回答,且模型的
学位
近年来,机械臂的研究一直是国际、国内极其重视的研究热点,在国家政策的大力支持下,目前,由于我国机械臂及智能系统技术正得到飞速发展,工业机械臂、医疗机械臂的应用得到了进一步推广,这极大的促进了我国工业、国防科技事业的大力发展。在机械臂运动过程中,因为各关节和连杆之间的作用力,产生的柔性效应会导致在执行实际任务时精度降低,所以机械臂的柔性特征是需要解决的首要问题。柔性机械臂是一个具有时变、强耦合等特性
学位
当今社会随着互联网的不断发展,学习资源的数量呈指数型上升,种类也多种多样,例如数字图书馆的学习资源、网络课程学习资源等等。在如此多的学习资源面前,用户想要找到最适合自己的学习资源也变得越来越困难,所以如何准确的向用户推荐最适合他的学习资源是一个非常必要的问题。推荐系统是根据用户的需求、兴趣将用户感兴趣的信息(如产品、图书、课程等)推荐给用户的系统。传统的推荐方法在推荐的过程中有很多局限:推荐过程是
学位
情绪的好坏决定着人们的生活状态,快乐、满足和喜悦等积极情绪能够提升幸福感,相反,焦虑、忧愁和厌恶等消极情绪会使人患上精神疾病甚至威胁生命。如何提高情绪分类的准确率并提高在日常生活场景应用的普适性越来越受到研究者的关注。传统的基于生理信号的情绪分类主要通过特征提取和训练分类器进行分类,传统方法的不足之处是准确率低并且可解释性差。Shapelet是时间序列的子序列,它能够出现在时间序列的任何位置,并且
学位
长链非编码RNA(long noncoding RNAs,lnc RNAs)被定义为长度大于200个核苷酸的非编码RNA。lnc RNAs在早期一直被人们认为是转录噪声,直到最近的研究证明lnc RNAs具有丰富的生物功能,几乎参与所有的生命过程。lnc RNAs的突变和失调与许多疾病相关,在生物体内发挥着重要作用。因此,识别新的与疾病相关的lnc RNAs有助于人类理解lnc RNAs的功能、识
学位
身份认证是一种用于确认用户身份的安全保障技术,在日常生活中一般可通过检查对方证件等身份证明物品的方式来实现。近年来,钥匙、证件等传统身份认证方式由于存在易丢失、携带不便等缺点,在一些应用场景中已渐渐被基于生物特征识别的身份认证方式所取代。然而,目前的部分生物特征存在易被伪造或难以与其他生物特征融合等问题。眼动作为一种行为性生物特征能够反映大脑区域和眼部肌肉的活动,不容易被伪造,因而具有较高的安全性
学位
如今,在网络访问中最方便的认证方式仍然是使用口令。纯数字口令更是ATM卡、信用卡、在线支付等认证的主要形式。目前关于口令安全的研究主要关注组合口令,比如同时包括字母、数字和特殊字符的口令。相对而言,对于纯数字口令和金融口令安全性的研究很少。为了弥补这一不足,本文研究了从泄露的国内网站数据集中提取的数字口令的安全性。主要贡献如下:(1)基于RNN的数字口令的安全性分析。首先,使用皮尔逊卡方检验验证了
学位
进化多目标优化算法(evolutionary multi-objective optimization algorithm,简称EMOA)研究利用进化计算的方法去求解多目标优化问题(multi-objective optimization problems,简称MOPs),其已经成为当下进化计算领域的一个热点。在EMOA中,基于分解的多目标进化算法(multi-objective evolutio
学位