论文部分内容阅读
环状RNA(circular RNA,circRNA)是一类单链共价闭合并且不含有5’帽子及3’尾巴的非编码RNA。研究表明,探索circRNA在人类生理和病理过程中发挥的作用具有重要意义,确认疾病状态下失调的circRNA有助于了解复杂疾病的发生和发展机制。由于circRNA具有组织特异性、稳定性等特性,因而成为一类潜在的生物标志物。识别circ RNA与疾病的关联关系有助于探索circRNA在疾病发生过程中所发挥的作用,然而利用传统的生物学实验方法识别疾病相关的circRNA具有成本高、耗时长等缺点。本文首先建立了收录实验验证circRNA-疾病关联关系的专用数据库,然后通过整合多个与circRNA和疾病相关的数据资源,利用基于复杂网络和深度学习算法提出了四种挖掘疾病相关circRNA的计算方法,从而为医学、生物学等研究人员对失调circRNA进行生物学实验验证提供指导,进而为药物的开发及临床诊断奠定一定的基础。本文所做工作如下:(1)根据已经被实验验证的circRNA与疾病之间的相互作用及相关信息建立了 CircR2Disease数据库,并对数据库内收录的circRNA与疾病的关联关系进行简要分析。由于目前通过实验验证的疾病相关的circRNA分散在已发表文献中,尚缺乏专门收录circRNA-疾病关联信息的平台和资源。因此,我们通过阅读与疾病相关的circRNA研究文献,从中抽取circRNA与疾病之间的关联关系,并建立了首个收录circRNA-疾病关联相关信息的在线数据库CircR2Disease,该数据库用于收集、存储和管理被实验证实的疾病相关circRNA信息,而且有助于科研人员对数据的获取与应用。(2)提出了一种基于KATZ模型的circRNA-疾病关系预测方法(KATZHCDA)。KATZHCDA方法充分利用circRNA表达谱、疾病表型相似性、circRNA高斯核相互作用相似性、疾病高斯核相互作用相似性以及已知的circRNA-疾病关联信息构建了 circRNA-疾病异质网络。然后,计算该异质网络中circRNA与疾病结点之间不同长度的路径,从而预测circRNA与疾病之间的相关性。为了探索circRNA和疾病相关的四种相似性衡量方式对预测结果产生的影响,我们分别利用留一法(leave-one-out cross validation,LOOCV)和五折交叉验证(5-fold cross validation,5-fold CV)评价KATZHCDA模型的预测性能。结果显示,KATZHCDA模型的开发为临床验证复杂疾病相关的circRNA奠定了基础。(3)基于circRNA-疾病网络的拓扑和结构特征,提出了一种基于双向随机游走和circRNA调控相似性的circRNA-疾病关联关系预测方法(BWHCDA)。考虑到circRNA可以竞争性结合微RNAs(microRNAs,miRNA)并调控基因表达,我们利用circRNA-miRNA之间的相互作用信息来衡量circRNA之间的调控相似性,随后结合疾病语义相似性、高斯核相互作用相似性和circRNA-疾病的已知关联信息构建circRNA-疾病异质网络。然后,同时在circRNA相似性网络和疾病相似性网络上运行随机游走算法,分析该异质网络被循环二分图覆盖的情况,并根据候选关系对得分挖掘潜在的circRNA-疾病关联关系。实验结果表明,BWHCDA模型是一种预测疾病相关circRNA的有效工具。(4)鉴于已知的circRNA-疾病相关性数据中含有噪声,提出了一种基于低秩矩阵和标签传播的circRNA-疾病关联关系预测方法(LLPHCDA)。首先利用一种低秩矩阵恢复方法去除关联矩阵中存在的噪声,并得到一个新的低秩邻接矩阵。通过整合circRNA之间的序列相似性和circRNA高斯核相互作用相似性构建了circRNA相似性网络,通过整合疾病语义相似性及疾病高斯核相似性构建了疾病相似性网络,然后将重构的低秩circRNA-疾病矩阵作为标签,分别在circRNA相似性网络和疾病相似性网络中运行标签传播算法,从而预测潜在的circRNA-疾病关联关系。结果表明LLPHCDA模型可以有效的挖掘疾病相关circRNA。(5)基于卷积神经网络(convolutional neural network,CNN)框架可以有效地学习稀疏性特征的优点,提出了一种基于多相似性特征融合和双层卷积神经网络挖掘疾病相关的circRNA的方法(MSFCNN)。首先,基于circRNA、miRNA、疾病相关的生物学和拓扑学特征计算获得四种circRNA相似性矩阵和七种疾病相似性矩阵。然后,利用相似性核融合(similarity kernel fusion,SKF)方法将多种相似性分别融合为一个circRNA相似性矩阵和一个疾病相似性矩阵。基于与circRNA、疾病、miRNA之间的相关的三种生物学假设构建了特征矩阵,并利用卷积神经网络从特征矩阵中学习circRNA与疾病之间的原始全局表示。通过多种评价标准以及案例分析表明MSFCNN模型的预测性能优于支持向量机(support vector machine,SVM)、随机森林(random forest,RF)及多层感知机(multilayer perception,MLP)等传统的机器学习方法。因此,本文构建的CircR2Disease数据库对进一步挖掘疾病相关的circRNA奠定了基础。另外,我们基于该数据库中收录的circRNA-疾病关联关系,整合多种circRNA、miRNA和疾病的相关信息开发了四个计算模型对疾病相关的circRNA进行了预测,从而为医学、生物学等研究人员验证疾病相关的circRNA奠定基础。