生物医学实体网络中隐含关系挖掘方法研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:julykoko
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着人工智能技术的发展,不断涌现的高新技术在各行各业掀起了层层巨浪,生物信息学领域也在浪潮的推动下日益繁荣。毋庸置疑,处于大数据时代,数据在生物医学领域中占据着重要的地位。随着大规模高通量信息技术的发展以及当代科研素质的不断提升,高质量科研成果层出不穷。除此之外,国内外各种科研团队集中大量精力从文献中抽取生物医学实体关系,并逐渐形成了生物医学数据库。但是,目前仍存在两个显著的问题亟待解决。首先是由于科研数据数量庞大,各个组织命名规范不尽相同,致使相同的内容可能被赋予不同的名称,这对于之后的提取关键信息、进行数据集成会造成极大的困扰。其次是生物医学研究是一个多学科相互联系、相互补充的综合性课题,该课题囊括多个方向的内容,每个方向都在具体实践或者科研论文方面取得了优异的成绩,但各个方向几乎是割裂的,形成了“知识分裂”的现象。因此,为了解决上述提出的问题,本文旨在建立一套完备的数据整合标准,将分散的数据集融合在一起,之后构造完整的、高效的方法,挖掘出数据中所隐含的信息,其实质就是将割裂的多个方向的研究融合成一个体系,进行隐含知识发现,弥补目前生物医学研究领域的一个空白,为科研提供崭新的方向。当前,国内外生物医学界的科研人员在生物医学领域取得了丰硕的研究成果。在人工智能技术的强大助力下,生物医学领域内处于主流地位的关系挖掘方法主要有以下四类:(1)基于共现的方法;(2)基于规则模式的方法;(3)基于机器学习的方法;(4)基于深度学习的方法。由于机器学习算法和深度学习算法的强大学习能力,因此后两类方法正处于强劲发展阶段。除此之外,随着网络表示学习的蓬勃发展,基于网络嵌入模型的关系挖掘方法独树一帜,在领域研究内也逐渐占有一席之地。本文试图找到一种更新颖、更准确的方法来解决大规模数据融合下的隐含关系发现的问题。本文提出了一个从生物医学实体网络中进行隐含关系挖掘的方法BEIRNE-kNN:在嵌入部分,本文在融合了基于变分自编码器改进的网络嵌入模型SDNE与基于生成对抗网络的图表示学习模型GraphGAN的基础上构建了一个混合模型BEIRNE;在预测部分,本文使用了传统的机器学习分类算法kNN。首先,本文通过整合几大现有公开生物医学数据集CTD、Gene Ontology、HPRD、HMDD和MATADOR,构建了一个包含基因-疾病、基因-通路、疾病-通路、疾病-化合物、基因-基因本体、miRNA-疾病、化合物-蛋白质和基因-基因关联关系的网络。其次,本文使用提出的BEIRNE模型来训练网络中节点的向量化表示。再次,本文选择网络中的边作为正样本,并通过排序得出网络元路径中的候选节点对,从而得到负样本。最后,使用正、负样本训练分类算法kNN,进行链路预测实验,找出网络中不存在直接关系,但是含有隐含关系的生物医学实体对,并将预测出来的结果在PubMed上进行验证,证明模型的实际应用价值。在进行应用实验之前,本文将提出的方法应用在benchmark数据集OMIM中,进行生物医学特定领域的关系挖掘,即预测基因-疾病之间的关系,同应用在这个数据集的其它论文中的三种模型(Katz,Catapult和IMC)进行了比较,得到较为优异的表现,进一步论证了提出的方法的科研价值。
其他文献
图像融合是一种提取多张源图像的有效信息并组合为一张融合图像的算法,它为计算机的后续处理及人为观察提供了便利。随着相关技术的发展以及图像的海量产生,图像融合可以应用的领域也较为广泛,例如医学图像的多模态融合、摄影领域的多焦距图像融合、遥感领域的全色图与多光谱图像的融合等。与此同时,卷积神经网络(CNN)作为深度学习领域的主要方法,解决或改进了图像领域的诸多问题并且取得了不俗的成绩,例如图像的分类、分
协商民主作为西方学界的理论创新,自提出以来得到了西方众多学者的解释和分析。自上世纪,协商民主理论被引入中国后,国内学者对其同样给予较高的关注和认同。与此同时,以温岭市民主恳谈为代表的地方协商民主实践正悄然而生。2017年,十九大报告提出“推进社会主义协商民主广泛多层制度化发展”,更是把协商民主的定位提升到了国家政治体制改革重要方向的战略层面。在这之前,2013年,党的十八届三中全会提出“推进国家治
软磁复合材料由表面包覆绝缘层的软磁合金颗粒组成,因此兼具金属软磁材料高磁通密度和软磁铁氧体高电阻的优点,可以同时满足器件小型化和高频使用的需求。传统软磁复合材料因
因果信息是文本语义信息重要的一部分,自动识别句子中的因果信息是自然语言处理的一个重要任务,近年来的研究已经证明了因果信息提取可以促进解决各种机器学习问题,包括语义分析、问答系统等。传统的方法使用模式识别、规则约束、统计学习等方法来完成因果信息抽取的工作,严重依赖于领域知识和特征工程。随着网络中非结构化文本信息的爆炸式增长以及计算机硬件性能的大幅度提升,数据驱动的学习理论得以快速发展,而传统机器学习
志愿服务是发展社会事业、解决社会矛盾的重要方式,对社会发展和经济建设发挥着独特的作用,志愿服务体现进步、互助、友爱、奉献的精神,它致力于大型活动、扶贫开发、环境保
中长碳链甘油三酯是一类天然油脂的改性产品,因其既可快速高效地为机体提供能量而不造成脂肪累积,又可为人体提供必需脂肪酸而成为油脂研究领域的焦点。本研究以资源丰富、至
随着测试技术的发展,蜕变测试被提出并逐步成为测试研究的重点,与传统测试不同,蜕变测试是在测试预言无法获取时候解决测试问题的。蜕变测试是通过多次执行存在一定关系的输入数据来查看对应的输出结果是否也满足一定的关系来应对Oracle问题的。而一个蜕变测试成功与否,与蜕变关系的选取息息相关。近些年来、蜕变测试的应用越来越广泛,并为不同的软件和程序产生了大量有价值的蜕变关系(MRs),然而由于每个人对蜕变关
马克思的哲学思想中蕴涵着道德理论这一事实被很多学者所确认,比如凯·尼尔森、罗德尼·佩弗、G.A.科恩等。那么,马克思的道德理论是一种什么样的道德理论?对马克思道德理论的性质进行讨论正在成为学界关注的重点问题。首先需要澄清的问题是:马克思是不是一位功利主义者?以亚当·沙夫、德里克·艾伦、艾伦·布坎南等为代表的学者,提出马克思的道德理论是一种功利主义。但这一看法遭到了诸多学者的反对,米勒通过对比马克思
天然气水合物以其能量密度高、燃烧无污染、储量巨大的优点引起了广泛的关注,但是现阶段既无法准确估算天然气水合物的资源储量,也缺乏监测天然气水合物开采过程的有效手段。
纤维增强复合材料及结构因其优异的力学承载性能和多功能特性在航空航天,船舶海洋等工程领域得到了越来越广泛的应用,然而此类材料在制备和服役过程中易形成损伤和缺陷,从而