基于指针标注的生物医学实体识别和关系抽取研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gir1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物医学领域研究取得飞速进展,大量携带研究成果的文献被发表。尽管有人力物力去手动整理这些文献中的信息,但仅仅依靠人力对信息进行更新远远跟不上文献发表的速度。与通用领域相比,生物医学文献的信息抽取存在大量的嵌套实体和重叠关系等问题。因此,如何准确的从大量生物医学文献中抽取出有价值的知识,是目前生物医学领域信息抽取的重大挑战。为此,本文研究了生物医学领域的实体识别和关系抽取。对于实体识别,本文基于层叠指针标注的方法不仅能有效识别生物医学领域中的非嵌套实体,同时也能实现嵌套实体的识别。识别出实体之后,本文基于两次指针标注的方法进行实体关系的联合抽取。最后,结合实体识别和关系抽取,提出了基于文献挖掘的药物重定位框架。具体地,本文的主要研究内容包括以下几个方面:(1)针对生物医学领域嵌套实体的识别,构建了基于层叠指针标注的方法CPT(Cascade Pointer Tagging)。借助层叠指针标注,解决了基于序列标注方式不能识别嵌套实体的问题。此外,本文将实体的描述信息作为先验知识,在实体识别的过程中引入实体的类别信息,可以取得更好的结果。在与基线方法的对比中,无论是嵌套实体的识别还是非嵌套实体的识别,都取得了最高的F1值。(2)针对生物医学领域文献中存在大量重叠关系的问题,构建了基于两次指针标注进行联合学习的关系抽取方法TPT(Two-time Pointer Tagging)。与基于流水线的方法相比,该方法没有错误传播、忽略子任务间的交互关系和产生冗余信息的缺点,同时还能解决生物医学领域中重叠关系的问题。本文将关系三元组的抽取转换为头部实体到尾部实体的函数映射,加强了三元组内部结构的依赖,在损失函数上添加偏执来缓解标签不平衡的问题。与基线方法进行对比时,在DDI和CPI两个公开的生物医学语料库上,本文的方法不仅提高了精准率,更能明显提升召回率,在两个语料库上都获得最高的F1值。(3)提出了基于文献挖掘的药物重定位框架,从大量的生物医学文献中获取潜在的药物和疾病之间的关系。本文基于层叠指针标注(CPT)扩充了临床变量的实体列表;基于秩和检验获取了疾病和临床变量之间的关系;基于两次指针标注的关系抽取(TPT)得到了药物和临床变量之间的关系;然后基于逻辑回归模型预测潜在的药物和疾病之间的关系并对治疗某种疾病的候选药物进行排序。本文一共收集了986个临床变量,2,532个药物实体以及超过80万篇的文献摘要,最终为三种常见的疾病(哮喘、糖尿病、心脏衰竭)找出了超过500种的候选治疗药物,为基于文献挖掘进行药物重定位提供了借鉴意义。这不仅验证了本文实体识别和关系抽取方法的有效性,也让抽取出的信息有了实际应用的价值。
其他文献
人体姿态迁移是一个新兴的研究问题,探索如何将图像中的人物从一个给定的初始姿态转换到另一个指定的姿态,并保留真实准确的纹理信息。该技术在电影编辑、虚拟现实、媒体制作等领域具有巨大的应用潜力。随着深度学习和生成模型的快速发展,越来越多的学者开始致力于这一研究方向。不同于普通物体,人体具有非刚性的特性。在人体姿态迁移任务中,从一个姿态迁移至另一个姿态是一个非线性的过程,因此传统图像生成方法难以对该任务进
学位
在机器翻译日益重要的今天,有监督和无监督方式成为训练机器翻译模型的主流方式。传统的有监督机器学习需要应用大规模的巨量平行语料进行训练,形成高质量翻译模型,从而使其的使用受到了限制。无监督翻译模型的提出,有效改善了机器翻译对平行语料的需求,但其仍然依赖大规模(千万级别)非平行高质量语料来实现翻译的高质量。因此本文研究借助少量的高质量标记来进行弱监督的多模态机器翻译。同时,在多模态的机器翻译中,图像特
学位
在移动边缘计算中,用户将计算任务卸载到边缘服务器处理,减少任务的时间延迟和能量消耗,并提升用户的体验。在现实场景中,用户移动和计算需求不断产生会影响到任务的卸载,而任务卸载会直接影响到用户的收益,因此需要高效的任务卸载策略。边缘服务器对资源的定价会影响到用户对任务的卸载,从而影响到边缘服务器的收益,因此需要高效的资源定价策略。本文在用户处于移动状态且计算需求不断产生的情况下,当边缘服务器对资源固定
学位
商业银行等金融机构积极推进高水平的数字化转型,如何在这一转型过程中通过有效的治理手段实现可持续的转型发展成为关键。本研究基于价值创造理论,结合国内外商业银行转型实践,通过扎根理论法和案例研究法,提出“价值创造三维治理模型”,以及具有适应性的治理路径和治理对策。研究发现,商业银行数字化转型的治理目标是通过价值网络中不同主体间的协同和互动提升金融资源的优化配置效率和价值创造能力,实现价值创造体系的持续
期刊
本文基于2015—2020年沪深A股上市企业的数据,采用文本分析技术构建企业数字化转型和企业价值研究模型,实证检验数字化转型对企业价值的影响及其作用机制。研究结果表明:(1)数字化转型能够显著促进企业价值的提升;(2)数字化转型能够提升创新效率,且创新效率在数字化转型与企业价值之间起部分中介作用;(3)异质性分析表明,在东部地区、高市场化地区和低环境不确定性情境下,数字化转型对企业价值的促进作用更
期刊
人脸特征点定位是指自动定位人脸特征点位置的方法,在人脸检测、人脸识别和面部表情分析等领域有着十分广泛的应用。级联姿态回归在人脸特征点定位表现优异,该算法基于初始形状,利用回归器逐步回归,逼近人脸真实形状。然而,当人脸包含局部遮挡时,人脸特征变得不可靠,从而导致人脸特征点定位和遮挡检测准确率降低,甚至导致人脸特征点定位失败。针对以上问题,本文提出如下两个解决方案:1)针对局部遮挡导致人脸特征点定位准
学位
随着白天和晚上监视数据爆炸性的增长,跨模态行人重识别成为新兴的挑战。与只处理模态之内差异的传统的行人重识别相比,跨模态行人重识别遭受了由不同类型成像系统造成的额外的跨模态差异。因此提出红外图片着色的方法来消除模态差距。但是生成对抗网络的着色方法依然存在一些问题,本文就这些问题进行一些研究。最近的各种研究工作提出了各种生成对抗网络模型,以将可见模态转换为另一个统一模态,旨在弥合跨模态鸿沟。但是,它们
学位
随着大数据、人工智能等技术的发展,数字经济时代已经到来,传统企业的数字变革也是大势所趋。索菲亚是家居定制行业中最早进行数字化转型的企业,最终实现了智能制造以及流程信息全打通的愿景。文章以索菲亚为例,对其数字化转型的动因、路径以及企业的盈利、营运、偿债、成长能力和EVA指标进行分析,以期为其他企业进行数字化转型提供参考。
期刊
叶脉是支撑叶片生长、运输叶片所需养分与光合作用产物的重要结构。叶脉根据所处位置、生长趋势和宽度等因素可以将其分级,例如一级叶脉定义为从叶柄向叶尖延伸的最粗叶脉,叶脉层级相较于叶脉网络更能表征叶脉的特性。叶脉的层级分割对图像分类、叶片建模和分子育种等领域具有重大意义。然而,当前对叶脉的研究大多停留在叶脉网络,由于层级叶脉复杂难以定位,更能发掘叶脉的特性的叶脉层级却少有涉及。一方面各级叶脉在色彩、亮度
学位
生成一直是自动摘要领域的难题,现有的文本自动摘要方法在处理长文本的过程中,存在准确率低、冗余等情况。无法达到令用户满意的性能效果。主要问题有两点:其一,目前以卷积神经网络(CNN)/循环神经网络(RNN)为编码器的抽取式文本摘要模型,在进行长文本抽取时,模型对文本内容的理解不够,抽取效果极不稳定,无法抽取到长文本的主旨句。其二,目前单纯的抽取式摘要模型存在性能瓶颈,由于抽取式文本摘要的粒度过大,进
学位