基于表示学习的miRNA-gene关系预测算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:dys206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,表示学习、深度学习在很多领域大放异彩。这些算法结合实际问题建模能起到很好效果,将其引入生物信息学也是近期的热点趋势之一。新一代测序技术及海量数据为科学家研究生物分子相互作用提供了便利。MicroRNA(miRNA)是一种生物小分子,通过多种方式调控基因(gene)表达,与很多复杂疾病有关。miRNA,gene以及疾病这三者构成了一个复杂的网络。如果能够更准确地预测miRNA和gene的潜在关联,就可以更好地探索复杂疾病致病机制,提供精准医疗方案。为此,本文结合表示学习、深度学习以及miRNA与gene的序列和网络信息,提出了两种基于表示学习方法的miRNA-gene关系预测算法,主要工作如下:(1)基于序列的经典miRNA-gene关系预测方法存在着筛选准确特征较难,未高效利用已知信息,选取特征不适合深度学习方法等不足。对此,本文提出了结合miRNA与gene的序列和网络信息的表示学习miRNA-gene关系预测算法SG-LSTM(Sequencial and Geometrical Long Short-Term Memory)。该算法使用了Doc2vec方法来学习miRNA和gene的序列信息,使用了Role2vec方法学习miRNA和gene的拓扑网络信息。在融合了多维度嵌入之后,使用已知关系对构建数据集。最后引入长短期记忆神经网络训练预测模型,计算潜在关系对的分数进行关系对的预测。交叉验证表明,SG-LSTM算法可以取得较高的AUC(Area Under Curve(值。预测强度向量以及和经典预测方法的交集表明,SG-LSTM算法可以有效预测潜在的miRNA-gene关系对。(2)生物信息学中负样本选取问题一直困扰着研究者们。基于距离方式生成的负样本,被假定为没有关系,但这并不代表他们真的没有关系。为了解决此问题,本文提出一种基于表示学习人工嵌入负样本的miRNA-gene关系预测方法,GAN-NEG。该算法首先通过序列匹配miRNA种子区域过滤出有生物意义的正样本。随后,引入其他方法中有生物意义的负样本扩增负样本的数量。最后,将负样本送入WGAN-GP(Wasserstein Generative Adversarial Networks-Gradient Penalty)模型中训练生成人工嵌入负样本,构造新的数据集。实验表明,该方法相比之前的算法在交叉验证中有更高的AUC值。更强的预测强度向量以及和经典预测算法更大的的交集表明,GAN-NEG预测算法的预测性能相比SG-LSTM算法有了进一步的提高。
其他文献
随着当前互联网技术和多媒体技术地迅猛发展,网络视频信息呈现出爆炸式增长的形势,如何有效而且自动化地对视频数据进行浏览、管理和检索已然成为目前计算机视觉领域中的研究重点。视频分割是指在时域上将一个视频拆分成多个语义片段,这些语义片段通常来说,是根据用户意图来定义的某些特定概念或主题。视频分割的意义在于可以通过将视频划分为多个独立的语义单元来对需要处理的视频构建目录,实现对视频地快速浏览,以及找到视频
图像重构是图像处理领域中的一种重要方法,通过该方法能够将成像系统中的样本观测信息进行求逆,重构出原始的样本图像。过去三十多年内,研究人员陆续提出了反卷积、全变分以及压缩感知等图像重构模型,已经广泛应用于医学成像、图像降噪、去模糊、超分辨率重构等方面。近年来,深度神经网络(Deep Neural Network,DNN)模型在图像分类、语音识别上取得了令人瞩目的成效,激发了研究人员对DNN模型研究的
吊脚楼是苗族与土家族的传统住宅,广泛分布于我国中西部夏热冬冷的农村山区,且居住者多留守老人。为了解夏热冬冷的农村地区传统吊脚楼与砖混住宅热环境以及老年群体热舒适状况,本课题组对湘西农村地区住宅夏季与冬季的室内热环境参数进行了测试,并对当地年龄超过65岁的老年人热感觉及生活习惯等进行了问卷调查。通过建立该地区老年人的热感觉模型,并将本课题研究成果与已有的同类研究进行对比,得出不同气候区老年人的热感觉
空气源热泵作为一种可再生能源,因其经济、能源利用率高、环保等优点在我国得到了广泛的应用。空气源热泵能满足大多数地区人们冬季供暖和夏季供冷的需求。当冬季环境温度较低,其用于采暖用途时会出现排气温度升高、压缩机压比变大、系统制热量减少、性能降低等问题。针对此问题,本文研究了一种带中间冷却器的双级压缩空气源热泵系统,采用双级压缩循环能够降低单个压缩机的压缩比,其级间结构可以降低系统的节流和过热损失,提升
随着我国电力系统的不断完善,配电网逐渐向着智能化的方向发展,需要为用户提供更可靠的供电质量。单相接地故障是配电网中最常发生的故障类型,若未能及时处理该故障可能引发城市中电缆通道火灾和增加大面积停电事件风险,甚至危害人身安全,故需要准确快速的找出故障线路并切除,降低对用户正常供电的影响。市场上现有的故障选线装置工程应用不太理想,目前无法做到快速选中并切除故障线路,仍有部分地区采用人工拉线法来选出故障
随着CRM(Customer Relationship Management)系统业务的增加和更新,传统的CRM系统已经不能满足快度迭代开发的需求,传统CRM系统是单体应用,基本上包含项目的所有,代码臃肿,维护成本高,可伸缩性差。将CRM系统进行微服务系统开发就能解决传统CRM系统带来的问题。简而言之,微服务就是将一个庞大复杂的业务系统按照一定的拆分原则将整个系统业务拆分成若干个独立的子系统,每个
汽车智能化作为新四化的重要组成部分,指的是AI控制、先进传感技术、5G通讯、车联网等高度智能技术在汽车上的应用。随着用户需求从功能满足向体验转变,提高人类驾乘舒适性的智能化功能应用越来越频繁。此外,国家积极推进智能汽车的发展,整个汽车行业都在投入汽车智能化技术研究,但由于目前缺乏对智能化功能的系统评价模型和判断依据,大量投入重资研发设计的智能化功能与用户真实需求不匹配,直接导致了产品开发失败。本文
随着人工智能、云计算等新兴产业的发展,我国数据中心的应用规模已扩大至55万个以上,随之而来的是高能耗问题。其中,由于传统冷却系统能耗占据数据中心总能耗的30%以上。为了降低冷却系统的能耗,研究者提出了适用于大中型数据中心的机柜级水冷分离式热管系统,并对该系统在满负荷、标准风量下的换热性能和规律进行研究。然而,我国数据中心平均负载率仅为50.61%,为了降低数据中心的运行能耗,分离式热管冷却系统会根
SUS301L不锈钢属于奥氏体不锈钢,被大范围地应用在轨道车辆、机械电子、轻工业等领域。采取常规焊接方法如钨极气体保护焊(TIG)、熔化极惰性气体保护焊(MIG)、熔化极活性气体保护焊(MAG)、电阻电焊、等离子焊等焊接SUS301L不锈钢时较易产生焊接变形、热裂纹、晶粒粗大等缺陷。目前地铁车顶常采用SUS301L不锈钢波纹薄板叠焊而成,采用的焊接方法是电阻点焊,存在的主要问题是焊后板材变形量大、
6xxx系列铝合金由于有其低密度、中高强度以及良好的成型性等优点被广泛应用于汽车车身板。添加微量合金元素是改善合金力学性能的一种有效手段。合金元素的添加主要是通过改变合金的时效析出行为来改善合金的性能,因此理解合金元素对合金析出演变规律的影响具有重要意义。在生产制造过程中合金会发生自然时效,对后续人工时效过程产生不利影响。通过添加微量合金元素降低合金自然时效负面效应对提高合金的性能具有积极意义。本