基于迁移学习和词表示的蛋白质交互关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:reddhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为生物医学信息抽取领域的重要分支,蛋白质交互关系抽取(Protein-Protein Interaction (PPI))是构建蛋白质关系网络的前提条件,具有至关重要的研究意义。目前的PPI研究大多采用统计机器学习的方法,取得了较好的效果。但现有的机器学习方法在PPI抽取任务上仍存在两个亟待解决的难题:标注数据匮乏问题和特征表示时的“数据稀疏”和“数据鸿沟”问题。首先,已标注数据不足会导致模型的抽取效果下降,而在生物医学领域,人工标注数据往往需要大量的、昂贵的实验;另外,传统机器学习方法在特征表示时普遍采用独热码(One-Hot Code)编码方式,忽略了语序和语法等信息,不能表达出词汇间的语义关联信息,限制了PPI抽取精度的提高。针对上述两个问题,本文分别从以下两个方面进行了研究:(1)将基于实例的迁移学习方法TrAdaboost引入到PPI抽取任务中,并在此基础上提出了一种改进的DisTrAdaboost算法。由于不同领域间数据分布存在差异,TrAdaboost算法容易因收敛速度过慢而产生负迁移,而改进的DisTrAdaboost算法借助于实例的相对分布来调整初始权重,可以有效地避免负迁移。实验结果表明,在公共语料库AIMed 上, TrAdaboost算法和改进的DisTrAdaboos t算法均获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好的迁移效果。(2)提出了一种基于词表示的特征表示方法,用于解决PPI抽取中的“数据稀疏”和“数据鸿沟”问题。本文使用词表示方法从大量无标记数据中无监督地学习潜在语义信息,根据语义信息将单词映射成向量空间中的向量或者将语义相似的单词聚为一类,使得语义相近的单词具有相似的空间分布,进而解决“数据稀疏”和“数据鸿沟”问题,提高PPI抽取性能。本文使用了三种词表示方法:分布式词表示方法、基于向量的聚类方法和布朗聚类方法用于提升蛋白质关系抽取任务的效果。实验结果显示,分布式词表示方法在五个公共语料库:AIMed, BioInfer, HPRD50, IEPA和LLL上效果均优于其他两种聚类方法,并且F-值分别达到了69.7%,74.0%,78.0%,76.5%和87.3%,高于其他现有的蛋白质关系抽取系统。
其他文献
随着互联网的普及,电信运营商开始介入到信息运营的业务领域,游戏业务是当前最大的互联网增值应用。随着游戏业务的规模扩大,数量众多的游戏业务迫切需要统一的管理平台的支
随着信息技术的不断发展以及对人类生活各个方面影响力的日益加深,社会各部门、各领域对互联网的依赖程度也空前提高,在这种情况下,对提高网络的生存、抗毁和自愈能力以及更
随着计算机图形学,游戏,虚拟现实等领域的发展,三维物体的应用也越来越广泛,随之而来的是非法占有、复制、修改、传播未授权产品的侵权行为越来越多。从而使人们对其产品的所
随着计算机技术和网络技术的迅猛发展,计算机系统已经从独立的主机发展到复杂的、互连的开放式系统。这种情况导致计算机及网络的入侵问题越来越突出,为保护系统资源,需要建
光线跟踪是真实感图形绘制的主要方法之一,它能够逼真地模拟各种光照效果。但由于光线跟踪算法需要递归地跟踪每一条从视点发出的光线,涉及到大量的光线与景物的求交计算,故处理
对等计算是未来重构基于Internet应用的关键技术之一。对等计算的核心思想是所有参与系统的节点都拥有对等的功能与责任,可以随时自由地加入或离开该系统,形成一个真正动态的
无线传感器网络是计算机、通信和传感器三项技术相结合的产物,作为一种新的信息获取和处理技术,目前成为计算机科学领域一个活跃的研究分支。传感器网络由大量的传感器节点组成
作为向下一代网络演进的重要手段之一,Overlay网络的发展正受到越来越多网络研究人员的关注。在应用层组织起虚拟的通信结构,用户之间可以通过协作来实现原有网络所不能提供的
当前,电信业务朝着多样化方向发展,普通的呼叫类业务已经不能满足用户的需要,电信业务日益增多,信令流程的复杂度也随之增加。同时,用户对服务质量的要求日益增高,这就要求业
随着电磁场理论的发展和计算机性能的不断提高,计算电磁学在最近几年得到了长足的发展,其中,时域有限差分(FDTD)方法由于其独特的性能和优点得到了越来越广泛的重视和应用。