基于深度边界组合的生物医学实体识别方法的研究与应用

来源 :贵州大学 | 被引量 : 0次 | 上传用户:fatcat120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,关于生物医学研究的文献数量急剧增长,其中包含了大量的生物医学知识,对生物医学的研究与应用至关重要。生物医学文本挖掘(Biomedical Literature Mining,BLM)技术帮助科研人员从这些文献中自动挖掘和提取知识,受到了越来越多的关注。生物医学命名实体识别(Biomedical Named Entity Recognition,Bio-NER)是BLM的一项基础性任务,在BLM的各种下游任务中发挥着重要的作用。相比于通用领域的实体,生物医学实体更加复杂,实体相互嵌套或不连续的现象广泛存在。然而,现有的大多数工作都集中于提取扁平化的实体,忽略了嵌套实体和不连续性实体。此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低。针对上述问题,本文提出基于深度边界组合的Bio-NER方法。本文的研究工作可分为以下三部分:(1)提出基于深度边界组合的Bio-NER模型,用以识别生物医学文本中的嵌套实体和不连续性实体。深度边界组合模型是一个基于神经网络的级联框架,主要由三个步骤组成:边界检测、边界组合、实体筛选。首先,识别实体的开始和结束边界,然后,将其组合成候选实体。最后,对候选实体进行筛选和分类。经过实验验证,本文提出的方法能够有效识别生物医学文本中的扁平化实体、嵌套实体和不连续性实体,极大地提高了命名实体识别性能,在GENIA数据集上获得了81.34%的 F1 值。(2)提出结合CRF的深度边界组合Bio-NER方法,更有效地利用生物医学实体的领域特征。使用CRF算法,充分利用生物医学词汇的原始特征、词性特征、前缀/后缀特征等特征信息和更深层次的语义信息,结合深度边界组合框架的灵活性,完成Bio-NER任务。实验显示,在深度边界组合模型的基础上,加入领域规则能够有效提升实验性能。(3)设计并实现Bio-NER工具。基于结合CRF的深度边界组合Bio-NER方法,设计并实现了 一个界面友好、便于使用的Bio-NER工具,方便科研人员使用。本文提出的基于深度边界组合的Bio-NER方法,有效地利用了生物医学领域特征,识别生物医学文本中的扁平化实体、嵌套实体和不连续性实体,为BLM的下游任务奠定基础。基于此方法,构建了便于科研人员使用的Bio-NER工具。
其他文献
近些年,为了降低农产品流通损耗,提升农产品价值,我国不断加大冷链物流基础设施建设力度,助推农产品冷链物流更好更快地发展。与此同时,很多生鲜农产品经营者实行纵向一体化战略,专注于农产品经营本身,而且随着专业化程度的分工和降本增效的需要,越来越多的农产品经营者选择将冷链物流业务外包给一体化冷链物流服务供应商。供应商服务质量的水平直接影响客户的品牌形象和服务体验,因此对农产品冷链物流供应商服务质量进行评
贵州地处山区,受场地的限制,大量的建筑临坡而建,很多建筑处于坡顶且距边坡很近。对于边坡上的临坡建筑,往往采用桩基础伸至坡底以下标高,以将建筑荷载传至边坡影响范围以下,保证边坡及坡上建筑的安全。对于岩质边坡,桩基穿过边坡影响范围内的岩体时,往往要求在潜在滑动范围内采用桩与岩体的隔离措施,该措施只是基于定性的认识来避免桩对边坡的不利影响,而对临近边坡的桩基础在坡体内的竖向荷载的传递规律的具体研究则很少
随着全球气候环境剧变,诸多环境因子影响了植物的生长发育,其中水分因子对植物正常的生长代谢越发显著。粉葛(Pueraria montana var.Thomsonii)作为一种药食同源的植物,在功能性产品方面具有很大的开发价值。因粉葛藤可作为绿化植被,粉葛块根中的淀粉已成为众多功能性产品和食用的原料,所以粉葛的种植在各地得到了大力推广。由于西南地区独特的喀斯特地貌导致地下水缺失,作为特殊的“半干旱”
地方猪相对于外来品种有着优良的耐粗饲特性,但目前对于耐粗饲特性研究的尚有局限性。本研究将系统性研究放养柯乐猪“耐粗饲性”较强的机理以及大肠内纤维分解菌的初步筛选。本次实验选取相同条件的放养猪和圈养猪进行饲养实验,进而研究放养对柯乐猪采食量、粗纤维的表观消化率、大肠形态结构的影响;通过16s RNA Illumina二代测序,Metastats方法分析放养和圈养模式柯乐猪大肠微生物群落特性;使用气相
学位
锂层状过渡金属氧化物LiNi0.8Co0.1Mn0.1O2(NCM811)因其高比容量、低价格、环境友好等优点被认为是下一代最有前景的正极材料之一。但是,NCM811一些固有问题,例如:阳离子混排、过渡金属侵蚀、表面残余锂副反应、不可逆相变、结构破坏等是其进一步发展的限制瓶颈。本文针对NCM811存在的缺陷,通过探寻最优合成条件,采用掺杂包覆协同改性、阴阳离子共掺杂方式优化晶体结构以及表界面,提高
当前,随着深度学习和医疗设备的高速发展,医学图像数据的种类和规模都呈现出井喷式的增长,面对海量图像数据的处理消耗大量的人力物力,为了节省人工处理的资源,研究学者针对不同种类的图像引入深度学习方法去处理海量的医学图像。在机器视觉领域中使用深度学习方法分割超声图像成为了医疗设备辅助诊断的关键步骤之一。然而超声图像具有噪声污染、灰度相近、边缘模糊不清等缺点,导致眼球超声图像的分割结果不理想。本文论文以深
Riccati方程是Riccati于1710s研究曲率时引入的微分方程,自此一直是广受数学家关注的重要问题之一,其早期的研究推动了微分方程进入定性理论研究的新阶段.Kalman在1950s研究LQ控制问题时引入Riccati方程,获得了LQ控制问题的最优反馈控制.不仅如此,Riccati方程在滤波理论、动力系统、量子力学等领域均有重要应用.随着控制论的发展,时间不一致控制问题已成为数学与金融的前沿
从交通监控视频中检测车辆是智能道路监控系统的重要任务。目前流行的基于深度学习目标检测方法应用在交通监控视频车辆检测任务上时,基本都把视频帧当做孤立静态的图像,输入神经网络提取特征,最终实现检测,并没有利用到视频帧车辆运动的特征。传统的帧间差分方法,把车辆在视频帧时间序列上蕴含的运动信息转换到图片空间像素上,本文提出了利用帧间差分图做为神经网络输入,把帧间差分图上在空间域的信息用神经网络转换到特征域
NAC转录因子(NAC Transcription factor)是植物家族的成员,在植物生长发育和逆境胁迫中起重要作用,目前全球土壤面临着重金属威胁,当下利用基因工程手段培育备种抗性植物品种是一种有效的治理途径。根据课题组前期马铃薯(Solanum tuberosum L)转录组数据库分析结果表明StNAC78可能参与调控马铃薯低镉积累基因的表达,因此,本研究从‘威芋7号’品种中克隆StNAC7
光纤陀螺作为惯性导航系统的核心器件,是一种低成本、全固态、高精度角速度传感器,在国防和民用等领域具有广泛的应用。目前,由于中美国家关系的恶化,IC行业受到严重打击,中国大部分芯片都受到严重制约,尤其对于在军事领域广泛应用的光纤陀螺,其芯片的国产化迫在眉睫。本文主要针对光纤陀螺中DAC芯片的国产化进行研究,从理论上分析DAC芯片对光纤陀螺的影响,并设计符合光纤陀螺工作要求的DAC芯片,具体研究内容如