基于事件框架的生物信息抽取的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:mumu_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的事件作为对生物实体及其变化的细粒度的表示,对于构造通路信息以及调控网络有着重要的意义。生物事件抽取任务包含两个子任务,生物事件触发词识别任务和生物事件元素检测任务。在自然语言处理领域,随着深度学习和表示学习的发展,越来越多的任务使用基于深度学习的方法来代替传统的基于特征工程的方法,避免了人工抽取特征。本文在这些工作的基础上,将深度学习和生物事件抽取任务相结合,使用深度学习模型实现事件触发词识别和事件元素检测。对于事件触发词识别任务,本文提出了两种触发词识别方法。第一种方法将触发词识别任务抽象成一个单词分类的任务,在结合分布式语义空间的基础上,提出了一种基于动态分段池化的CNN模型。该模型可以获取候选单词所在句子的句子级别特征信息,并结合其上下文的语义及实体特征信息作为单词的特征表示。最后通过训练分类器,构建生物医学事件触发词识别模型。该方法有效地将单词的位置信息与模型结构融合起来,实验结果表明,该方法相比于传统的基于特征工程的方法可以提高触发词识别性能。第二种方法将触发词识别任务抽象成一个序列标注的任务,提出了一种基于Bi LSTM-Attention-CRF的生物医学事件触发词识别的方法。该方法通过对文本中的单词以BIO标签形式进行标注构造样本,以解决以往方法不能识别多词触发词的问题;采用双向LSTM网络进行特征构建,在此基础上,通过注意力机制有效地融合了文档级别的特征;最后通过条件随机场学习BIO标签之间的相关性,最终对当前候选词进行标注,完成对文本中触发词的抽取。对于事件元素检测任务,本文提出了一种基于标注的方法来实现事件元素检测。不同于传统的基于二分类、多分类方法构造样本,本文将其抽象成对于当前触发词触发事件的文本序列的序列标注任务。因为事件元素的检测与触发该事件的触发词息息相关,本文将触发词所在句子作为基本的序列信息,并结合句子中单词对应的实体类别和触发词类别信息,最后对该序列标注事件元素的类别标签,来实现对事件元素的检测。在实验部分,本文使用MLEE数据集进行实验,使用大量的相关领域语料PubMed文献摘要训练词向量表达,分别针对任务的形式构建了相应的分布式特征表示,使用准确率、召回率和F1值评价模型效果,在触发词识别和事件元素检测上均取得了不错的效果。实验结果验证了本文所提出的模型的有效性。
其他文献
图像显著性检测是计算机视觉领域中一个非常重要又极具挑战性的研究课题。图像的显著性描述了在一幅图像中各部分的重要程度,检测结果以一幅灰度图的形式来进行展示,灰度值越
党的十九大提出“实施乡村振兴战略”的重大决策部署,其对乡村地区的经济、文化、生态、社会和组织管理等功能均提出了较高要求。在把握乡村历史演变、自然资源及现实条件的基础上,实施乡村振兴战略,就要做到分类规划、一村一策。乡村作为乡村振兴战略实施的主战场,在我国社会经济发展中占据了重要地位。土地是乡村发展的载体,土地利用/覆被功能提升既是实施乡村振兴战略的重要途径,又是衡量乡村振兴实施功效的重要视角。在统
本研究以新鲜牛奶为原材料,直投式混合乳酸和费式丙酸杆菌为发酵剂,制作两种干酪,混合型气孔干酪和混合型无孔干酪。在混合型干酪中掺入了不同比例的大豆分离蛋白,以此来探讨
无线传感器网络中多接收节点的网络模型在各个领域中具有广泛的应用,网络中节点的能量、计算和存储能力有限,且通常部署于恶劣的环境中。使用组播通信可以有效地降低源节点负
随着互联网技术的快速发展和大面积普及,互联网已经融入人们日常的工作和平常生活的方方面面,大有取代以电视和报纸为代表的传统信息传播媒介的趋势,成为社会主流的信息传播
宽带相控阵雷达具有高距离分辨力、同时多目标跟踪的特点,能够获得更高的观测精度和丰富的目标信息,是空间目标观测的重要手段。然而宽带相控阵雷达存在“孔径效应”问题,采
我国的刺参养殖业发展迅速,但是由于在刺参规模化养殖过程中存在管理低下、养殖密度过高等问题,从而导致了抗生素的滥用,这极大的危害了刺参产品的安全。为了缓解这一问题,我
风灾损伤是造成低矮建筑围护结构损毁的主要原因,低矮房屋的风荷载是设计建造中需要重点关注的作用。因而对低矮房屋围护结构的屋面的风压分布特性及屋面风压规律的研究对实际工程的设计和灾害的防治具有重要意义。单坡和锯齿房屋常用于工业厂房及仓储,因其独特的建筑锯齿外形具有空间大,结构轻盈的特点,易受来流风的影响发生损毁。而已有文献对不同屋面坡度下锯齿房屋风荷载分布特性的研究鲜有报道。本文主要通过多种坡度的屋面
气候变化、海洋污染、外来生物入侵、海岸工程建设等因素综合影响导致红树林湿地面积缩减和湿地功能丧失,生物多样性面临重大威胁。本文以南流江河口红树林潮沟为研究对象,运用无度量多维排序分析(NMDS,non-metric multidimensional scaling)对鱼类物种组成及时空分布格局进行研究,并运用冗余分析(redundancy analysis,RDA)和广义相加模型(generali
延迟容忍网络作为一种新兴的采用点到点存储转发路由的新型网络体系结构,近年来得到了广大学者及研究者的关注和研究。DTN网络明显区别于传统网络,具有时延高、间歇性连接、