基于异构网络和机器学习的长非编码RNA-疾病关联关系预测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mai120117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长非编码RNA(long noncoding RNAs)是一类长度超过200个核苷酸的非编码RNAs,大量研究表明,lncRNAs在许多重要的生物过程中起着关键作用,并且其突变和失调与许多疾病有关。然而通过生物实验方法来识别lncRNA和疾病的关联是费时费力的。有效的计算方法将有助于人类对疾病分子机制的理解,并有助于寻找疾病诊断,治疗和预防的生物标志物。本文主要研究使用计算方法来预测lncRNA-疾病关联关系。  生物网络方法已经应用于多个生物信息领域,本文利用已知 lncRNA-疾病关联关系数据,lncRNA 表达相似度,疾病语义相似度等得到了 lncRNA-lncRNA 相似度矩阵和疾病相似度矩阵。并通过相似度矩阵构建了lncRNA-疾病异构网络,通过在异构网络上进行双随机游走算法,对未知的关联进行预测,在对已知数据上的LOOCV下AUC值达到了0.9374,五折交叉验证下达到了0.8504,高于其它几种对比的方法。基于异构网络的模型对于高关联疾病的预测和对新疾病的预测都表现出良好效果。另外,通过将方法应用于复杂疾病进行案例研究,说明了方法的有效性。而且,方法可以同时对所有疾病进行预测。  机器学习方法对于解决例如像推荐系统等问题有很多的应用,利用已知的长非 RNA-疾病关联关系,通过引入 miRNA 和疾病的相关信息,本文计算了新的lncRNA相似度矩阵,并通过疾病间的关系扩展了数据集。通过引入堆叠自编码器和多层神经网络,提出了能够提取数据高层特征的基于神经网络的机器学习模型,以及通过集成方法将多个基分类器进行有效组合的集成模型,两个模型在新数据集上,五折交叉验证下分别达到了0.9041和0.9072的AUC。模型也能够对miRNA-疾病关联关系进行预测,并能到达很好的效果。在噪声数据下的结果证明了模型较好的鲁棒性。此外,对前列腺癌,肺癌和胃癌三个疾病的案例研究进一步证明了其预测未知lncRNA-疾病关联关系的能力。同时,模型可以对没有任何已知关联关系的疾病进行预测。  本文提出了基于异构网络的方法和基于机器学习的方法来预测 lncRNA-疾病关联关系,在实验相关指标和案例分析中都获得的很好的结果,因此,方法可能对未来生物医学研究是一个很好的补充。最后,本文对所提出的模型方法进行了总结,并对未来的研究进行了展望。
其他文献
随着计算机网络教育技术的发展,网络化考试将逐步取代传统的基于纸笔的考试。利用网络实现在线组卷、考试、评分等环节,在一定程度上减少了影响考试的人为主观因素,客观、准确地
随着嵌入式技术的发展,网络语音传输技术在部分领域内开始显现出重要作用,并成为衡量电子设备智能化的一个重要标志。嵌入式网络语音传输系统的开发有助于拓宽嵌入式技术的应用
随着国民经济的迅猛发展,社会对电力的需求与日剧增以及市场机制的引入,现代电力企业也日益面临日趋激烈的市场竞争。研究和开发相应的资产管理系统,对于优化电力企业资源配
《国家中长期科学和技术发展规划纲要(2006-2020年)》实施以来,我国财政科技投入快速增长,科技项目和资金管理不断改进,为科技事业发展提供了有力支撑。同时也给科技项目管理
随着Internet的广泛应用,许多原本独立的设备和系统开始与Internet互联,使越来越多的信息资源共享成为可能。嵌入式系统接入Internet的技术难点在于:如何利用嵌入式系统自身有限
计算机电话集成(CTI,ComputerTelephoneIntegration)技术是计算机网络和传统电话相结合的产物。基于CTI的集成信息系统,对许多企业的经营方式产生了重要的影响,它是实现开放型客
随着互联网和电子商务的发展,目前许多公司都通过Web广告来推广自己的产品,很多大型互联网公司的主要收入来源也来自于Web广告,因此目前对Web广告的研究越来越热门。为了研究
随着控制网络发展与普及,控制网络中的时间同步技术也得到了迅速的发展,目前应用于工业控制网络测量的时间同步协议标准主要是IEEE1588标准,此标准对控制网络中的现场设备时间同
随着信息的爆炸性增长,存储行业成为IT领域的一个新兴的增长点。数据量的指数级增长,存储应用的不断变化,对存储管理提出了新的挑战。存储管理对于这个存储系统的可用性、可
传统的IP多播方案是为一对多,多对多的通信模型而设计的。然而由于IP多播方案的技术性问题和IP多播方案所带来的市场问题,使得IP播方案在提出10年以后仍然没有在Internet上成功