基于变分自编码器的关键蛋白质互作用关系预测算法研究

来源 :东莞理工学院 | 被引量 : 0次 | 上传用户:gongwen_2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的发展,现代社会对蛋白质(Protein)功能的理解与研究需求日益迫切,大多数蛋白质通过与其他蛋白质相互作用来执行其功能,因此对蛋白质相互作用(Protein-Protein Interactions,PPIs)的探索也已经引起了广泛关注。目前,PPIs数据中的已知蛋白质互作用关系密度非常低,无法满足生命科学实际应用的需求,大量的蛋白质互作用关系有待发掘。但由于生物实验时间耗费长和成本高的特性,现有的通过实验手段获得的PPIs数据呈现出高度稀疏的状态。此外,发掘关键蛋白质相互作用的重要性高于预测所有未知的蛋白质相互作用关系。因此,本文将重点研究关键蛋白质互作用关系预测,提出了基于变分自编码器(Variational Autoencoder,VAE)的算法来对高维稀疏的蛋白质互作用网络(Protein-Protein Interaction Network,PPIN)进行表示学习,主要的研究内容如下:首先,本文通过设置阈值的方法对数据进行预处理,构建了一个无向的关键PPIN,在基于高斯分布的VAE的基础上引入了信息加权参数,使得模型能够更好地对高维稀疏且不完备的PPIN数据进行表示学习。在VAE的原始损失函数中引入了一个正则化系数,采用了退火方法来更新该系数,此方法使得VAE能更适用于预测关键PPIs的场景。结果分析表明本文提出的算法在关键PPIs预测问题方面表现出良好的预测性能。其次,基于VAE良好的可扩展性,本文将VAE与Bagging思想相结合,构建了一个数据划分与概率求和体系结构,以此训练多个基预测器,将多个基预测器通过概率求和的方法集合成一个强关键PPIs预测模型。本文扩展了VAE的模型结构以提升算法的准确度与鲁棒性,同时也通过分布式计算有效降低了原方法的计算成本。最后,针对传统的超参数寻优方法的缺陷,本文将粒子群优化算法用于模型超参数寻优,使VAE模型实现了超参数自适应。这种更新方法降低了调参所需要的时间成本,使得模型能在训练过程中动态地调节超参数,同时也能让模型在训练中更快地往最优的方向优化。综上所述,本研究提出了一个关键PPIs预测算法与其改进算法,这些算法能高效地处理高维稀疏且不完备的PPIN数据。预测出来的关键PPIs信息不仅为挖掘新的PPIs提供理论依据,而且能协助人们了解蛋白质的功能和该蛋白质所承担的职责,有助于疾病的诊断和病理学的研究等。
其他文献
近年来,深度学习技术在诸多领域得到了成功的应用,而这些成就的取得主要归功于资深的深度学习专家不断设计出更加有效的深度神经网络架构。由于深度学习技术不断蓬勃发展,人为设计性能优异的神经网络开始变得越来越困难,设计高效的神经网络架构搜索算法来自动发现有潜力的网络模型变得愈发重要。目前已有不少优秀的神经网络架构搜索算法被提出,但它们通常直接在针对特定任务精心设计的搜索空间进行搜索。由于搜索空间中往往存在
学位
目前关于网络表示学习的研究多数集中在静态网络上,但是随着计算机技术的发展,无论是自然事物的网络关系还是工业应用上的网络关系都从静态转向了动态。随着加密货币的热潮不断高涨,其构建出了一个庞大且复杂的动态交易网络。以太坊平台的发展极其迅速,其包含的账户数量不断增长,这就使得其交易网络形成一个高维不完备的状态,同时这种交易网络仍包含以下特点:动态、有向、带权、边缘复用。本文将这种复杂网络称为高维不完备动
学位
中微子的研究对粒子的构成和宇宙的起源都有着重要的作用,江门中微子实验(JUNO)通过探测中微子的能量谱,对中微子的质量顺序和振荡参数进行更加精准的测量。为了对JUNO中光电倍增管(PMT)的性能进行检测,需要利用标定源遍历探测器内的指定位置,因此必须对标定源进行定位。主动光源和标定源连接在一起,CCD视觉定位系统通过对主动光源精准定位,从而得到标定源的位置信息。基于此开展JUNO刻度系统中CCD定
学位
水体出现富营养化现象是由于氮、磷元素的含量过高导致的。通过研究了解到当前的磷资源在不断的消耗,在未来会消耗殆尽并且磷资源不可再生。因此从富磷水体中回收磷资源备受广泛关注。本文利用廉价易得到的废弃生物质作为原料,通过固固混合和高温热解的方法制备成生物炭材料。通过吸附试验和结合各种表征手段对制备的复合材料进行研究,其中包括:除磷的效果、除磷的机理和材料的物理化学性质。结果表明,废弃的蟹壳可以提供Ca元
学位
自2011年《刑法修正案(八)》规定扒窃型盗窃罪单独入刑已过去近十年,在此期间,仅有2013年的一部司法解释对其进行较为简单的规定,明确了扒窃型盗窃罪入罪需具备“公共场所或者公共交通工具”这一空间要素和“随身携带的财物”这一对象要素。明确该要素的认定标准是扒窃型盗窃罪入罪的关键和标准,然而现有司法解释并未进一步明确和统一这些构成要件要素的深层内涵,进而导致理论和实务界对于扒窃罪的入罪标准问题至今均
学位
会议是人们日常生活和工作中获取信息的一种重要途径,逐渐增长的会议需求使得通过人工方式进行会议纪要的工作费时费力,因此利用会议纪要自动化生成技术能够快速地从海量会议数据中提炼出会议的中心内容并形成会议纪要结果是十分必要的。不同领域的会议内容具有差异性,而会议结构信息比内容信息更具有泛用性,如果能够知道会议的各个主题内容的结构分布对会议关键信息的认识也会有很大的帮助,这些结构信息对于撰写会议纪要是十分
学位
进化算法是求解最优化问题的全局最优解的一类重要方法,由于其广泛的适用性和良好的求解性能而广受关注。然而,进化算法领域存在两个重要的问题,一个是如何更好地平衡全局搜索能力和局部搜索能力,另一个是进化算法一般依赖于数值比较来论证其有效性,但对于如何进行数值比较却缺乏系统的研究。针对第一个问题,本文探索了同一个算法在两层搜索空间协同搜索的新方法,该方法有别于借助局部优化算法来加强局部寻优能力的传统策略。
学位
目前我国市场处于高新技术领域快速发展的时期,诸多高新技术企业为了实现企业实力、技术能力的提升,纷纷开启并购模式。尤其是实力较强、在某一细分领域市场占有率较高的企业,会通过并购方式将自身业务拓展到同领域的更广阔的市场,并且更加巩固自身的优势技术或者产业。但是,企业并购是把双刃剑,能否在并购后实现经营协同,是决定企业并购成败的关键。本文以石基信息公司为案例,研究高新技术企业在相同领域的并购行为以及并购
学位
社会经济的快速发展导致区域土地利用格局的剧烈变化,从而影响非点源(nonpoint source,简称NPS)污染输出负荷,威胁区域水环境安全和居民健康。因此,考虑生产活动等社会经济因素影响,预测模拟区域土地利用变化,评估NPS污染输出负荷及其分布特征,并在此基础上,提出NPS污染管控目标,开展区域土地利用结构优化研究,对区域水环境质量提升和社会经济的可持续发展具有重要意义。然而,土地利用变化和N
学位
随着互联网技术的快速发展和数据存储能力的大幅提升,越来越多的车辆移动轨迹数据集被采集,如何分析数据集中的车辆的移动轨迹规律是一个难点。针对轨迹数据集,出现了一些分析车辆的移动轨迹的方法,目前广泛采用的是机器学习的方法预测车辆的移动位置,不过该类方法存在一定的不足之处,例如利用机器学习的方法预测车辆轨迹,该方法容易受到训练集的影响,如果数据集有数据缺失或者数据不精确的情况,可能会导致预测的结果出现偏
学位